Speech driven upper body gesture analysis and synthesis

Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi

PDF İndir

Tez No: 318010
Yazar: SERKAN ÖZKUL
Danışmanlar: DOÇ. DR. YÜCEL YEMEZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2012
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 69

Özet

Bu tez çalışmasında, çok kipli beden hareketi verisi üzerinde istatistiksel öğrenme teknikleri kullanarak, konuşma ile eşzamanlı, doğal ve inandırıcı üst beden hareketleri sentezi için yeni bir çatı yapısı ve sayısal model önerilmektedir. Önerilen çatı yapısı 4 ana kısımdan oluşmaktadır: i) üst beden hareketi ve prozodik bölütler üzerinde tek kipli kümeleme, ii) jest ve prozodik bölütler üzerinde çok kipli analiz, iii) konuşma güdümlü jest sentezi ve iv) beden jest animasyonu. İlk kısım, jestlerin ve konuşma prozodisinin zamansal orüntülerini öğrenmek için konuşma ve beden hareketlerinin tek kipli analizinden oluşmaktadır. Jest örüntülerinin belirlenmesi çok kanallı ve eş zamanlı video kayıtlarından çıkarılan beden hareketlerinin yarı denetlemeli zamansal kümelenmesi ile sağlanmıştır. Buna karşılık prozodi örüntüleri ise konuşma girdisinden çıkarılan prozodi özniteliklerinin denetimsiz zamansal kümelenmesiyle tanımlanmıştır. İkinci kısım, konuşma ve jestler arasındaki bağıntıları öğrenmek için gizli yarı Markov modellerine dayalı çok kipli bir analiz yöntemi kullanmaktadır. Üçüncü kısım beden hareketi sentezi problemini ele alır; bu da konuşma girdisi verildiğinde jest sekansının ve jest sürelerinin oluşturulmasına karşılık gelir. Son kısımda ise, sentezlenmiş hareket dizisinden doğal görünümlü bir üst beden hareketi animasyonunun oluşturulması hedeflenir. Önerdiğimiz konuşma güdümlü jest animasyon sisteminin başarımını oluşturmuş olduğumuz MVGL-MUB veritabanı üzerinde ölçüyoruz. Elde ettiğimiz deney sonuçları, önerdiğimiz sentez sisteminin, konuşma ile beden hareketleri arasındaki işitsel-görsel bağıntıyı uygun şekilde modellediğini ve böylece gerçekçi ve doğal üç boyutlu insan modeli animasyonları üretebildiğini göstermektedir.

Özet (Çeviri)

In this thesis we present a new computational model for natural and believable upper-body gesture synthesis in synchrony with speech using statistical learning techniques over multimodal gesticulation data. The framework consists of four main tasks for: i) unimodal clustering of gesture and intonational phrases, ii) multimodal analysis of gesture and intonational phrases, iii) speech driven gesture synthesis, and iv) gesture animation. The first task consists of unimodal analysis of speech and upper body motion to learn temporal patterns of gesture and speech prosody. Body motion features, which are extracted from multi-channel synchronous video recordings, are used to define gesture phrases with a semi-supervised temporal clustering scheme. On the other hand prosody features, which are extracted from speech input, are used to define intonational phrases with an unsupervised temporal clustering scheme. The second task performs multimodal analysis to learn dependencies between gesture and intonational phrases by utilizing a hidden semi-Markov model (HSMM). Third, we perform gesture synthesis, that is extraction of gesture sequence and gesture durations, given the speech input. The final task is to perform gesture animation, where the synthesized gesture sequence is mapped into body motion sequences to maintain a natural looking animation. The performance of the proposed speech driven gesture synthesis system is tested over our MVGL-MUB Database. Experimental results demonstrate that our system is able to properly discover audiovisual correlations between speech and gesture thus it can synthesize realistic and natural body gestures along with 3D human model animation.

Benzer Tezler

Tez No
435857
Real-time speech driven gesture animation
Gerçek zamanlı konuşma sürümlü jest animasyonu
KENAN KASARCI
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. YÜCEL YEMEZ
DOÇ. ENGİN ERZİN
Tez No
730986
Speech driven backchannel generation in human-robot interaction with conservative Q-learning
İnsan-robot etkileşiminde korunumlu Q-öğrenme ile konuşmaya dayalı arka kanal üretimi
ÖYKÜ ZEYNEP BAYRAMOĞLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL YEMEZ
Tez No
90620
Automated speech driven lipsynch facial animation for Turkish
Türkçe ses eşzamanlı yapay yüz canlandırma
ZEKİ MELEK
Yüksek Lisans
İngilizce
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. LALE AKARUN
Tez No
648608
Domain adaptation for speech-driven affective facial features synthesis
Başlık çevirisi yok
RIZWAN SADIQ
Doktora
İngilizce
2020
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Prof. Dr. ENGİN ERZİN
Tez No
442458
Multimodal analysis and synthesis of affective human body gestures from speech prosody
Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi
ELİF BOZKURT
Doktora
İngilizce
2016
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENGİN ERZİN

Geri Dön