Geri Dön

Audio-visual correlation modeling for speaker identification and synthesis

Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi

  1. Tez No: 182064
  2. Yazar: MEHMET EMRE SARGIN
  3. Danışmanlar: PROF.DR. MURAT TEKALP
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2006
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Özet yok.

Özet (Çeviri)

This thesis addresses two major problems of multimodal signal processing using audio-visual correlation modeling: speaker recognition and speaker synthesis. We address the firstproblem, i.e., the audiovisual speaker recognition problem within an open-set identificationframework, where audio (speech) and lip texture (intensity) modalities are fused employinga combination of early and late integration techniques. We first perform a canonical corre-lation analysis (CCA) on the audio and lip modalities so as to extract the correlated partof the information, and then employ an optimal combination of early and late integrationtechniques to fuse the extracted features. The results of the experiments indicate that theproposed multimodal fusion scheme improves the identification performance over the earlyand late integration of original modalities. We also demonstrate the importance of modalitysynchronization for the performance of early integration techniques and propose a CCA-based method to synchronize audio and lip modalities. We address the second problem,i.e., the speaker synthesis problem within the context of a speech-driven speaker animationapplication. More specifically, we present a Hidden Markov Model (HMM) based two-stagemethod for joint analysis of head gesture and speech prosody patterns of a speaker towardsautomatic realistic synthesis of head gestures from speech prosody. The analysis method isused to learn correlations between head gestures and prosody for a particular speaker froma training video sequence. The resulting audio-visual mapping model is then employed tosynthesize natural head gestures on a given 3D head model for the speaker from arbitraryinput test speech. Objective and subjective evaluations indicate that the proposed synthesisby analysis scheme provides natural looking head gestures for the speaker with any inputtest speech.iv

Benzer Tezler

  1. Audio visual attention for robots from a developmental perspective

    Gelişimsel perspektiften robotlar için görsel ve işitsel diıkkat

    NADA AL AZZAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÖKHAN İNCE

  2. Modelling of multisensoryintegration of ecological stimuli

    Başlık çevirisi yok

    MEHMET AYKUT KURT

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    BiyolojiUniversität Bielefeld

    DR. CESARE V. PARİSE

    DR. NORBERT BÖDDEKER

  3. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  4. Audiovisual analysis for learning and synthesis of dance performances

    Dans performanlarının öğrenme ve sentez amaçlı işitsel-görsel analizi

    FERDA OFLİ

    Doktora

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜCEL YEMEZ

    PROF. DR. AHMET MURAT TEKALP

  5. İşitsel peyzajda ses çevresi memnuniyet düzeyinin bulanık mantık ile tahmin edilmesi: Diyarbakır Suriçi uygulaması

    Prediction of sound environment pleasantness level by fuzzy logic in the soundscape: Diyarbakir Surici application

    DERYA ÇAKIR AYDIN

    Doktora

    Türkçe

    Türkçe

    2017

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SEVTAP YILMAZ