Geri Dön

Multimodal analysis and synthesis of affective human body gestures from speech prosody

Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi

  1. Tez No: 442458
  2. Yazar: ELİF BOZKURT
  3. Danışmanlar: DOÇ. DR. ENGİN ERZİN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Konuşabilen insansı sanal arayüzler, jestler gibi duygu yüklü sözsüz iletişimi kullandıkça insan bilgisayar etkileşiminde daha gercekçi hale gelirler. Duygu yüklü sözlü iletişime eşlik eden jestlerin sentez ve canlandırması, daha doğal görünen konuşabilen arayüzleri yaratmakta yardımcı olur. İnsan insana iletişimde zengin duygu bilgisi içeren konuşma sinyali, duygu ifade eden jestler ile daha da vurgulanır. Konuşma sürümlü jest sentezi, konuşma sinyalindeki duygu içeriğini konuşma ve jest karmaşık çeşitliliğini ve zamanlama ilişkisini modelleyerek duygu yüklü jestlere aktarır. Bu tezde, önce konuşma bürünü ve ritimi sürümlü vurgu jestleri otomatik sentezi ve gerçekçi canlandırması için konuşma bürünü ile jestlerin ortak modellemesini sunuyoruz. Daha sonra, aktivasyon, değerlik, ve baskınlık ile ifade edilen sürekli duygu özniteliklerini kullanarak konuşma sürümlü duygu yüklü jest sentezi ve canlandırmasını araştırıyoruz. Jestlerin durum ve konuşma bürünü ile duygu özniteliklerinin gözlem olarak ifade edildiği saklı yarı-Markov modelleri kullanarak jest, konuşma ve duygu sinyallerinin çok kipli analizini sunuyoruz. Konuşma ve duygu öznitelikleri sürümlü duygu ifadeli jest sentezi ve canlandırması için farklı istatiksel modeller değerlendirildi. Konuşmacıya bağlı ve konuşmacıdan bağımsız olarak düzenlenen sistemler çok kipli iki veri tabanı üzerinde denendi. Farklı istatiksel yapılar içinde, gözlem dağılımını duyguya bağlı bürün olarak modelleyen koşullu yapı, jest sentezi nesnel değerlendirmelerinde ve jest canlandırması öznel değerlendirmelerinde en iyi başarımı elde etti.

Özet (Çeviri)

Conversational agents become more realistic as they utilize affective non-verbal communication, such as the use of gestures, in human computer interaction. Synthesis and animation of gestures to accompany affective verbal communication can help to create more naturalistic conversational agents. In human-to-human communication, speech signal carries rich emotional cues, which are further emphasized by affect-expressive gestures. Speech-driven gesture synthesis can map emotional cues of the speech signal into affect-expressive gestures by modeling complex variability and timing relationships of the joint articulation of speech and gesture. In this thesis, we first introduce a framework for joint analysis of speech prosody and human body gestures towards automatic synthesis and realistic animation of beat gestures from speech prosody and rhythm. Later, we investigate the use of continuous affect attributes, which are activation, valence and dominance, in speech-driven affective synthesis and animation of gestures. We present a statistical framework for multimodal analysis of gesture, speech and affect based on the hidden semi-Markov models, where gestures are representing the states, and speech-prosody and continuous affect attributes are representing the observations of the model. Different structures of the statistical model are evaluated for synthesis and animation of affect-expressive gestures given speech and affect attributes. Evaluations are performed over two multimodal datasets in speaker-dependent and independent settings. Among different statistical structures, the conditional structure, which models observation distributions as prosody given affect, achieved the best performance with objective evaluations for the gesture synthesis and with subjective evaluations for the gesture animation.

Benzer Tezler

  1. Biyomedikal uygulamalar için çok-işlevli demir oksit-gadolinyum borat kompozit nanoplatformların geliştirilmesi

    Development of multifunctional iron oxidegadolinium borate composite nanoplatforms for biomedical applications

    OKAN İÇTEN

    Doktora

    Türkçe

    Türkçe

    2017

    KimyaHacettepe Üniversitesi

    Nanoteknoloji ve Nanotıp Ana Bilim Dalı

    PROF. DR. BİRGÜL KARAN

    DOÇ. DR. DURSUN ALİ KÖSE

  2. Music-driven dance synthesis by multimodal dance performance analysis

    Çoklu model dans performans analizi ile müzikle sürülen dans sentezinin yapılması

    YASEMİN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. MURAT TEKALP

    YRD. DOÇ. ENGİN ERZİN

    YRD. DOÇ. YÜCEL YEMEZ

  3. Speech driven upper body gesture analysis and synthesis

    Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi

    SERKAN ÖZKUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜCEL YEMEZ

  4. Audio-visual correlation modeling for speaker identification and synthesis

    Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi

    MEHMET EMRE SARGIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. MURAT TEKALP

  5. Populism and representation of social actors in Europe: Turkey in the multimodal right-wing populist discourse

    Popülizm ve sosyal aktörlerin Avrupa'da temsili: Çok modlu sağ popülist söylemde Türkiye

    FATMANUR KAÇAR AŞCI

    Doktora

    İngilizce

    İngilizce

    2021

    Uluslararası İlişkilerMarmara Üniversitesi

    Avrupa Birliği Siyaseti ve Uluslararası İlişkiler Ana Bilim Dalı

    PROF. DR. YONCA ÖZER