Multimodal speaker identification with audio-video processing
Çoklu-ortam ses-görüntü işleme ile biometrik konuşmacı tanıma
- Tez No: 136750
- Danışmanlar: PROF. DR. MURAT TEKALP, YRD. DOÇ. DR. ENGİN ERZİN, YRD. DOÇ. DR. YÜCEL YEMEZ
- Tez Türü: Yüksek Lisans
- Konular: Biyoloji, Elektrik ve Elektronik Mühendisliği, Biology, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2003
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
ÖZETÇE Bu tezde, metne bağlı çoklu ortamlı bir konuşmacı tamma sistemi tanıtılmıştır. Amaç, geleneksel tek ve çift ortamlı tanıma sistemlerinin başaranını arttırmaktır. Önerilen sis tem, bir video akımında bulunan üç temel ortamı birleştirir: ses, yüz dokusu ve du dak hareketi. Video akımının her çerçevesi arasındaki dudak hareketi özdudak katsayıları ile hesaplandıktan sonra bu katsayılar bir öznitelik vektörüne dönüştürülür. Elde edilen öznitelik vektörleri, tüm akım boyunca doğrusal aradeğerlenerek ses işaretinin oram ile eşleştirildikten sonra mel-frekans kepstral katsayılarla (MFCC) birleştirilir. Sonuçta elde edilen birleşik öznitelik vektörleri, Saklı Markov modeli tabanlı bir tanıma sisteminde eğitim ve sınama amacıyla kullanılır. Yüz dokusu ise bir özyüz etki yöresinde ayrıca işlenerek karar füzyonu aşamasında sisteme katılır. Deneysel sonuçlar sistem başarımmin gösterilmesi için teze eklenmiştir.
Özet (Çeviri)
ABSTRACT In this thesis we present a multimodal text-dependent speaker identification system. The objective is to improve the recognition performance over conventional unimodal or bimodal schemes. The proposed system decomposes the information existing in a video stream into three modalities: voice, face texture and lip motion. Lip motion between successive frames is first computed in terms of eigenlip coefficients and then encoded as a feature vector. The feature vectors obtained along the whole stream are linearly interpolated to match the rate of the speech signal and then fused with mel frequency cepstral coefficients (MFCC) of the corresponding speech signal. The resulting joint feature vectors are used to train and test a Hidden Markov Model (HMM) based identification system. Face texture images are treated separately in eigenface domain and integrated to the system through decision-fusion. Experimental results are also included for demonstration of the system performance. IV
Benzer Tezler
- Audio-visual correlation modeling for speaker identification and synthesis
Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi
MEHMET EMRE SARGIN
Yüksek Lisans
İngilizce
2006
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. MURAT TEKALP
- Discrimination analysis of lip motion features for multimodal speaker identification and speech-reading
Çok-kipli konuşmacı ve konuşma tanıma uygulamaları için dudak devinim öz niteliklerinde ayırıcı analiz
HASAN ERTAN ÇETİNGÜL
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT TEKALP
YRD. DOÇ. DR. ENGİN ERZİN
- Unsupervised active learning for video annotation
Video etiketleme için denetimsiz aktif öğrenme
EMRE DEMİR
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Multimodal analysis and synthesis of affective human body gestures from speech prosody
Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi
ELİF BOZKURT
Doktora
İngilizce
2016
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENGİN ERZİN
- Demonstratives in turkish: on the pragmatic use of demonstratives in the context of a collaborative problem solving task
Türkçe'de işaret ifadeleri: işbirlikçi bir problem çözme görevi bağlamında işaret ifadelerinin pragmatik kullanımı
FARUK BÜYÜKTEKİN
Yüksek Lisans
İngilizce
2018
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT PERİT ÇAKIR
DR. CEYHAN TEMÜRCÜ