Geri Dön

Speech driven upper body gesture analysis and synthesis

Konuşma ile sürülen üst beden hareketlerinin analizi ve sentezi

  1. Tez No: 318010
  2. Yazar: SERKAN ÖZKUL
  3. Danışmanlar: DOÇ. DR. YÜCEL YEMEZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Bu tez çalışmasında, çok kipli beden hareketi verisi üzerinde istatistiksel öğrenme teknikleri kullanarak, konuşma ile eşzamanlı, doğal ve inandırıcı üst beden hareketleri sentezi için yeni bir çatı yapısı ve sayısal model önerilmektedir. Önerilen çatı yapısı 4 ana kısımdan oluşmaktadır: i) üst beden hareketi ve prozodik bölütler üzerinde tek kipli kümeleme, ii) jest ve prozodik bölütler üzerinde çok kipli analiz, iii) konuşma güdümlü jest sentezi ve iv) beden jest animasyonu. İlk kısım, jestlerin ve konuşma prozodisinin zamansal orüntülerini öğrenmek için konuşma ve beden hareketlerinin tek kipli analizinden oluşmaktadır. Jest örüntülerinin belirlenmesi çok kanallı ve eş zamanlı video kayıtlarından çıkarılan beden hareketlerinin yarı denetlemeli zamansal kümelenmesi ile sağlanmıştır. Buna karşılık prozodi örüntüleri ise konuşma girdisinden çıkarılan prozodi özniteliklerinin denetimsiz zamansal kümelenmesiyle tanımlanmıştır. İkinci kısım, konuşma ve jestler arasındaki bağıntıları öğrenmek için gizli yarı Markov modellerine dayalı çok kipli bir analiz yöntemi kullanmaktadır. Üçüncü kısım beden hareketi sentezi problemini ele alır; bu da konuşma girdisi verildiğinde jest sekansının ve jest sürelerinin oluşturulmasına karşılık gelir. Son kısımda ise, sentezlenmiş hareket dizisinden doğal görünümlü bir üst beden hareketi animasyonunun oluşturulması hedeflenir. Önerdiğimiz konuşma güdümlü jest animasyon sisteminin başarımını oluşturmuş olduğumuz MVGL-MUB veritabanı üzerinde ölçüyoruz. Elde ettiğimiz deney sonuçları, önerdiğimiz sentez sisteminin, konuşma ile beden hareketleri arasındaki işitsel-görsel bağıntıyı uygun şekilde modellediğini ve böylece gerçekçi ve doğal üç boyutlu insan modeli animasyonları üretebildiğini göstermektedir.

Özet (Çeviri)

In this thesis we present a new computational model for natural and believable upper-body gesture synthesis in synchrony with speech using statistical learning techniques over multimodal gesticulation data. The framework consists of four main tasks for: i) unimodal clustering of gesture and intonational phrases, ii) multimodal analysis of gesture and intonational phrases, iii) speech driven gesture synthesis, and iv) gesture animation. The first task consists of unimodal analysis of speech and upper body motion to learn temporal patterns of gesture and speech prosody. Body motion features, which are extracted from multi-channel synchronous video recordings, are used to define gesture phrases with a semi-supervised temporal clustering scheme. On the other hand prosody features, which are extracted from speech input, are used to define intonational phrases with an unsupervised temporal clustering scheme. The second task performs multimodal analysis to learn dependencies between gesture and intonational phrases by utilizing a hidden semi-Markov model (HSMM). Third, we perform gesture synthesis, that is extraction of gesture sequence and gesture durations, given the speech input. The final task is to perform gesture animation, where the synthesized gesture sequence is mapped into body motion sequences to maintain a natural looking animation. The performance of the proposed speech driven gesture synthesis system is tested over our MVGL-MUB Database. Experimental results demonstrate that our system is able to properly discover audiovisual correlations between speech and gesture thus it can synthesize realistic and natural body gestures along with 3D human model animation.

Benzer Tezler

  1. Real-time speech driven gesture animation

    Gerçek zamanlı konuşma sürümlü jest animasyonu

    KENAN KASARCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. YÜCEL YEMEZ

    DOÇ. ENGİN ERZİN

  2. Speech driven backchannel generation in human-robot interaction with conservative Q-learning

    İnsan-robot etkileşiminde korunumlu Q-öğrenme ile konuşmaya dayalı arka kanal üretimi

    ÖYKÜ ZEYNEP BAYRAMOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL YEMEZ

  3. Domain adaptation for speech-driven affective facial features synthesis

    Başlık çevirisi yok

    RIZWAN SADIQ

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Prof. Dr. ENGİN ERZİN

  4. Automated speech driven lipsynch facial animation for Turkish

    Türkçe ses eşzamanlı yapay yüz canlandırma

    ZEKİ MELEK

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LALE AKARUN

  5. Multimodal analysis and synthesis of affective human body gestures from speech prosody

    Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi

    ELİF BOZKURT

    Doktora

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENGİN ERZİN