Geri Dön

Tandem approach for information fusion in audio visual speech recognition

Görsel-işitsel konuşma tanımada ardışık veri kaynaştırma yaklaşımı

  1. Tez No: 245416
  2. Yazar: HARUN KARABALKAN
  3. Danışmanlar: YRD. DOÇ. DR. HAKAN ERDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

İnsanların çevresiyle etkileşiminde en çok tercih ettiği araçların başında ses ve konuşma gelir. Bu durum, konuşma tanıma sistemlerini gelecekteki insan-bilgisayar arayüzlerinin vazgeçilmez bir parçası haline getirmektedir. Ancak, konuşma tanıma sistemlerinin gerçek hayatta uygulanabilir olması için çevresel gürültüden etkilenmeden yüksek tanıma oranlarına ulaşabilir olması gerekmektedir. Görsel ? İşitsel Konuşma Tanıma Sistemleri, işitsel gürültünün olumsuz etkilerini en aza indirgemek için dudak hareketlerinden elde edilen görsel konuşma bilgisini kullanmaktadır.Görsel bilginin sisteme dahil edilmesinin sebebi, konuşma tanımada görsel bilginin işitsel bilgiyi bütünleyici bir bilgi kaynağı olması ve işitsel gürültüden etkilenmemesidir. Bu avantaj ile birlikte sistem tasarımı açısından iki yeni husus doğmaktadır.Bu hususlardan ilki, görsel öznitelik çıkarımı, diğeri ise görsel ve işitsel bilginin kaynaştırılmasıdır. Bu çalışma, görsel ve işitsel bilginin kaynaştırılması problemine odaklanmakta ve özgün bir görsel-işitsel konuşma tanıma sistemi önermektedir.Önerilen yöntemde, her iki bilgi akımı için ayrı olarak Gauss karışımı modeli eğitilmektedir. Eğitilen Gauss karışımı modelinden elde edilen her iki akıma ait sonsal olasılık vektörleri birleştirilmekte ve birleştirilmiş sonsal olasılık vektörleriyle Doğrusal Ayırtaç Sınıflandırıcısı eğitilmektedir. Bu şekilde, görsel ve işitsel bilgi kaynaştırılmış olmaktadır. Doğrusal Ayırtaç Sınıflandırıcısı çıktısı olan sonsal olasılık vektörleri ise Saklı Markov Modelleri için gözlem vektörleri olarak kullanılmaktadır.Önerilen yaklaşım ile tasarlanan kişiden bağımsız rakam tanıma sistemi, değişen seviyelerde araba gürültüsünün mevcut olduğu koşullarda sınanmaktadır. Yeni yöntem, şu ana dek önerilmiş en başarılı görsel-işitsel konuşma tanıma sistemlerinden biri olarak kabul edilen Çok Akımlı Saklı Markov Modeli (ÇASMM) ile tanıma oranı ve hız açısından karşılaştırılmaktadır. Deneysel sonuçlar, önerilen yöntemin MSHMM yöntemine göre daha az işlem yüküyle yakın tanıma oranlarına ulaşabildiğini göstermektedir.

Özet (Çeviri)

Speech is the most frequently preferred medium for humans to interact with their environment making it an ideal instrument for future human-computer interfaces. However, for the speech recognition systems to take part in real life applications, high recognition accuracy together with speaker independency and robustness to hostile conditions is necessary.The main preoccupation for speech recognition systems is acoustic noise. Audio Visual Speech Recognition systems intend to overcome the noise problem utilizing visual speech information generally extracted from the face or in particular the lip region. Visual speech information is known to be a complementary source for speech perception and is not impacted by acoustic noise. This advantage brings in two additional issues into the task which are visual feature extraction and information fusion.There is extensive research on both issues but an admissable level of success has not been reached yet. This work concentrates on the issue of information fusion and proposes a novel methodology. The aim of the proposed technique is to deploy a preliminary decision stage at frame level as the first base and feed the Hidden Markov Model with the output posterior probabilities derived in the preliminary decision stage. First, Gaussian Mixture Model (GMM) classification is performed for each modality separately. Sequentially the individual classifiers of each modality are combined with Linear Discriminant Classifier (LDC) to obtain posterior probability vectors corresponding to each speech frame. The purpose of using a preliminary stage is to integrate acoustic and visual data for maximum class separability. Hidden Markov Models are employed as the second stage of modelling because of their abilityto handle temporal evolutions of data.The proposed approach is investigated in a speaker independent scenario for digit recognition with the existence of diverse levels of car noise. The method is compared with a principal information fusion framework in audio visual speech recognition which is Multiple Stream Hidden Markov Models. Results on M2VTS database show that the proposed method achieves resembling performance with less processing time as compared to MSHMM.

Benzer Tezler

  1. Enabling dynamics in face analysis

    Başlık çevirisi yok

    HAMDİ DİBEKLİOĞLU

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversiteit van Amsterdam

    PROF. DR. THEO GEVERS

    PROF. DR. A. W. M. SMEULDERS

  2. Ray: A profile-based approach for homology matching of tandem-ms spectra to sequence databases

    Ray: Dizi veritabanlarında tandem ms spektraların homolji eşleşmesini sağlamak amacı ile profile dayalı yaklaşım

    ŞULE YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Biyoteknolojiİzmir Yüksek Teknoloji Enstitüsü

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. JENS ALLMER

    DOÇ. DR. BİLGE KARAÇALI

  3. Basın işletmelerinde ISO 9001:2008 Kalite Yönetim Sisteminin uygulanması

    Application of ISO 9001:2008 Quality Management System in press companies

    ÖZNUR AYŞE GİRİT

    Doktora

    Türkçe

    Türkçe

    2010

    GazetecilikMarmara Üniversitesi

    İletişim Ana Bilim Dalı

    PROF. DR. TÜRKAN UĞUR DAİ

  4. Using crosslingual information for keyword search in low resource languages

    Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı

    BOLAJI YUSUF

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik Elektronik Mühendisliği Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  5. Çeşitli şekillerde düzenlenmiş iki silindir etrafındaki akım alanının incelenmesi

    Investigation of the flow araund two circular cylinders in various arrangements

    M.NEVZAT ÖZKAN

    Doktora

    Türkçe

    Türkçe

    1985

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. M. ZEKİ ERİM