Multimodal analysis and synthesis of affective human body gestures from speech prosody
Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi
- Tez No: 442458
- Danışmanlar: DOÇ. DR. ENGİN ERZİN
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Konuşabilen insansı sanal arayüzler, jestler gibi duygu yüklü sözsüz iletişimi kullandıkça insan bilgisayar etkileşiminde daha gercekçi hale gelirler. Duygu yüklü sözlü iletişime eşlik eden jestlerin sentez ve canlandırması, daha doğal görünen konuşabilen arayüzleri yaratmakta yardımcı olur. İnsan insana iletişimde zengin duygu bilgisi içeren konuşma sinyali, duygu ifade eden jestler ile daha da vurgulanır. Konuşma sürümlü jest sentezi, konuşma sinyalindeki duygu içeriğini konuşma ve jest karmaşık çeşitliliğini ve zamanlama ilişkisini modelleyerek duygu yüklü jestlere aktarır. Bu tezde, önce konuşma bürünü ve ritimi sürümlü vurgu jestleri otomatik sentezi ve gerçekçi canlandırması için konuşma bürünü ile jestlerin ortak modellemesini sunuyoruz. Daha sonra, aktivasyon, değerlik, ve baskınlık ile ifade edilen sürekli duygu özniteliklerini kullanarak konuşma sürümlü duygu yüklü jest sentezi ve canlandırmasını araştırıyoruz. Jestlerin durum ve konuşma bürünü ile duygu özniteliklerinin gözlem olarak ifade edildiği saklı yarı-Markov modelleri kullanarak jest, konuşma ve duygu sinyallerinin çok kipli analizini sunuyoruz. Konuşma ve duygu öznitelikleri sürümlü duygu ifadeli jest sentezi ve canlandırması için farklı istatiksel modeller değerlendirildi. Konuşmacıya bağlı ve konuşmacıdan bağımsız olarak düzenlenen sistemler çok kipli iki veri tabanı üzerinde denendi. Farklı istatiksel yapılar içinde, gözlem dağılımını duyguya bağlı bürün olarak modelleyen koşullu yapı, jest sentezi nesnel değerlendirmelerinde ve jest canlandırması öznel değerlendirmelerinde en iyi başarımı elde etti.
Özet (Çeviri)
Conversational agents become more realistic as they utilize affective non-verbal communication, such as the use of gestures, in human computer interaction. Synthesis and animation of gestures to accompany affective verbal communication can help to create more naturalistic conversational agents. In human-to-human communication, speech signal carries rich emotional cues, which are further emphasized by affect-expressive gestures. Speech-driven gesture synthesis can map emotional cues of the speech signal into affect-expressive gestures by modeling complex variability and timing relationships of the joint articulation of speech and gesture. In this thesis, we first introduce a framework for joint analysis of speech prosody and human body gestures towards automatic synthesis and realistic animation of beat gestures from speech prosody and rhythm. Later, we investigate the use of continuous affect attributes, which are activation, valence and dominance, in speech-driven affective synthesis and animation of gestures. We present a statistical framework for multimodal analysis of gesture, speech and affect based on the hidden semi-Markov models, where gestures are representing the states, and speech-prosody and continuous affect attributes are representing the observations of the model. Different structures of the statistical model are evaluated for synthesis and animation of affect-expressive gestures given speech and affect attributes. Evaluations are performed over two multimodal datasets in speaker-dependent and independent settings. Among different statistical structures, the conditional structure, which models observation distributions as prosody given affect, achieved the best performance with objective evaluations for the gesture synthesis and with subjective evaluations for the gesture animation.
Benzer Tezler
- Biyomedikal uygulamalar için çok-işlevli demir oksit-gadolinyum borat kompozit nanoplatformların geliştirilmesi
Development of multifunctional iron oxidegadolinium borate composite nanoplatforms for biomedical applications
OKAN İÇTEN
Doktora
Türkçe
2017
KimyaHacettepe ÜniversitesiNanoteknoloji ve Nanotıp Ana Bilim Dalı
PROF. DR. BİRGÜL KARAN
DOÇ. DR. DURSUN ALİ KÖSE
- Music-driven dance synthesis by multimodal dance performance analysis
Çoklu model dans performans analizi ile müzikle sürülen dans sentezinin yapılması
YASEMİN DEMİR
Yüksek Lisans
İngilizce
2008
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. MURAT TEKALP
YRD. DOÇ. ENGİN ERZİN
YRD. DOÇ. YÜCEL YEMEZ
- Speech driven upper body gesture analysis and synthesis
Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi
SERKAN ÖZKUL
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜCEL YEMEZ
- Audio-visual correlation modeling for speaker identification and synthesis
Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi
MEHMET EMRE SARGIN
Yüksek Lisans
İngilizce
2006
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. MURAT TEKALP
- Populism and representation of social actors in Europe: Turkey in the multimodal right-wing populist discourse
Popülizm ve sosyal aktörlerin Avrupa'da temsili: Çok modlu sağ popülist söylemde Türkiye
FATMANUR KAÇAR AŞCI
Doktora
İngilizce
2021
Uluslararası İlişkilerMarmara ÜniversitesiAvrupa Birliği Siyaseti ve Uluslararası İlişkiler Ana Bilim Dalı
PROF. DR. YONCA ÖZER