Geri Dön

Multimodal speaker identification with audio-video processing

Çoklu-ortam ses-görüntü işleme ile biometrik konuşmacı tanıma

  1. Tez No: 136750
  2. Yazar: ALPER KANAK
  3. Danışmanlar: PROF. DR. MURAT TEKALP, YRD. DOÇ. DR. ENGİN ERZİN, YRD. DOÇ. DR. YÜCEL YEMEZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoloji, Elektrik ve Elektronik Mühendisliği, Biology, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2003
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

ÖZETÇE Bu tezde, metne bağlı çoklu ortamlı bir konuşmacı tamma sistemi tanıtılmıştır. Amaç, geleneksel tek ve çift ortamlı tanıma sistemlerinin başaranını arttırmaktır. Önerilen sis tem, bir video akımında bulunan üç temel ortamı birleştirir: ses, yüz dokusu ve du dak hareketi. Video akımının her çerçevesi arasındaki dudak hareketi özdudak katsayıları ile hesaplandıktan sonra bu katsayılar bir öznitelik vektörüne dönüştürülür. Elde edilen öznitelik vektörleri, tüm akım boyunca doğrusal aradeğerlenerek ses işaretinin oram ile eşleştirildikten sonra mel-frekans kepstral katsayılarla (MFCC) birleştirilir. Sonuçta elde edilen birleşik öznitelik vektörleri, Saklı Markov modeli tabanlı bir tanıma sisteminde eğitim ve sınama amacıyla kullanılır. Yüz dokusu ise bir özyüz etki yöresinde ayrıca işlenerek karar füzyonu aşamasında sisteme katılır. Deneysel sonuçlar sistem başarımmin gösterilmesi için teze eklenmiştir.

Özet (Çeviri)

ABSTRACT In this thesis we present a multimodal text-dependent speaker identification system. The objective is to improve the recognition performance over conventional unimodal or bimodal schemes. The proposed system decomposes the information existing in a video stream into three modalities: voice, face texture and lip motion. Lip motion between successive frames is first computed in terms of eigenlip coefficients and then encoded as a feature vector. The feature vectors obtained along the whole stream are linearly interpolated to match the rate of the speech signal and then fused with mel frequency cepstral coefficients (MFCC) of the corresponding speech signal. The resulting joint feature vectors are used to train and test a Hidden Markov Model (HMM) based identification system. Face texture images are treated separately in eigenface domain and integrated to the system through decision-fusion. Experimental results are also included for demonstration of the system performance. IV

Benzer Tezler

  1. Audio-visual correlation modeling for speaker identification and synthesis

    Konuşmacı tanıma ve sentezi için görsel işitsel ilinti modellenmesi

    MEHMET EMRE SARGIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. MURAT TEKALP

  2. Discrimination analysis of lip motion features for multimodal speaker identification and speech-reading

    Çok-kipli konuşmacı ve konuşma tanıma uygulamaları için dudak devinim öz niteliklerinde ayırıcı analiz

    HASAN ERTAN ÇETİNGÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT TEKALP

    YRD. DOÇ. DR. ENGİN ERZİN

  3. Unsupervised active learning for video annotation

    Video etiketleme için denetimsiz aktif öğrenme

    EMRE DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  4. Multimodal analysis and synthesis of affective human body gestures from speech prosody

    Konuşma bürününden duygu yüklü insan beden jestleri çok kipli analizi ve sentezi

    ELİF BOZKURT

    Doktora

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENGİN ERZİN

  5. Demonstratives in turkish: on the pragmatic use of demonstratives in the context of a collaborative problem solving task

    Türkçe'de işaret ifadeleri: işbirlikçi bir problem çözme görevi bağlamında işaret ifadelerinin pragmatik kullanımı

    FARUK BÜYÜKTEKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT PERİT ÇAKIR

    DR. CEYHAN TEMÜRCÜ