Audio-visual correlation modeling for speaker identification and synthesis
Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi
- Tez No: 182064
- Danışmanlar: PROF.DR. MURAT TEKALP
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2006
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 83
Özet
Özet yok.
Özet (Çeviri)
This thesis addresses two major problems of multimodal signal processing using audio-visual correlation modeling: speaker recognition and speaker synthesis. We address the ï¬rstproblem, i.e., the audiovisual speaker recognition problem within an open-set identiï¬cationframework, where audio (speech) and lip texture (intensity) modalities are fused employinga combination of early and late integration techniques. We ï¬rst perform a canonical corre-lation analysis (CCA) on the audio and lip modalities so as to extract the correlated partof the information, and then employ an optimal combination of early and late integrationtechniques to fuse the extracted features. The results of the experiments indicate that theproposed multimodal fusion scheme improves the identiï¬cation performance over the earlyand late integration of original modalities. We also demonstrate the importance of modalitysynchronization for the performance of early integration techniques and propose a CCA-based method to synchronize audio and lip modalities. We address the second problem,i.e., the speaker synthesis problem within the context of a speech-driven speaker animationapplication. More speciï¬cally, we present a Hidden Markov Model (HMM) based two-stagemethod for joint analysis of head gesture and speech prosody patterns of a speaker towardsautomatic realistic synthesis of head gestures from speech prosody. The analysis method isused to learn correlations between head gestures and prosody for a particular speaker froma training video sequence. The resulting audio-visual mapping model is then employed tosynthesize natural head gestures on a given 3D head model for the speaker from arbitraryinput test speech. Objective and subjective evaluations indicate that the proposed synthesisby analysis scheme provides natural looking head gestures for the speaker with any inputtest speech.iv
Benzer Tezler
- Audio visual attention for robots from a developmental perspective
Gelişimsel perspektiften robotlar için görsel ve işitsel diıkkat
NADA AL AZZAWI
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
- Audiovisual analysis for learning and synthesis of dance performances
Dans performanlarının öğrenme ve sentez amaçlı işitsel-görsel analizi
FERDA OFLİ
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜCEL YEMEZ
PROF. DR. AHMET MURAT TEKALP
- İşitsel peyzajda ses çevresi memnuniyet düzeyinin bulanık mantık ile tahmin edilmesi: Diyarbakır Suriçi uygulaması
Prediction of sound environment pleasantness level by fuzzy logic in the soundscape: Diyarbakir Surici application
DERYA ÇAKIR AYDIN