Tandem approach for information fusion in audio visual speech recognition

Görsel-işitsel konuşma tanımada ardışık veri kaynaştırma yaklaşımı

PDF İndir

Tez No: 245416
Yazar: HARUN KARABALKAN
Danışmanlar: YRD. DOÇ. DR. HAKAN ERDOĞAN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik Mühendisliği Bölümü
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

İnsanların çevresiyle etkileşiminde en çok tercih ettiği araçların başında ses ve konuşma gelir. Bu durum, konuşma tanıma sistemlerini gelecekteki insan-bilgisayar arayüzlerinin vazgeçilmez bir parçası haline getirmektedir. Ancak, konuşma tanıma sistemlerinin gerçek hayatta uygulanabilir olması için çevresel gürültüden etkilenmeden yüksek tanıma oranlarına ulaşabilir olması gerekmektedir. Görsel ? İşitsel Konuşma Tanıma Sistemleri, işitsel gürültünün olumsuz etkilerini en aza indirgemek için dudak hareketlerinden elde edilen görsel konuşma bilgisini kullanmaktadır.Görsel bilginin sisteme dahil edilmesinin sebebi, konuşma tanımada görsel bilginin işitsel bilgiyi bütünleyici bir bilgi kaynağı olması ve işitsel gürültüden etkilenmemesidir. Bu avantaj ile birlikte sistem tasarımı açısından iki yeni husus doğmaktadır.Bu hususlardan ilki, görsel öznitelik çıkarımı, diğeri ise görsel ve işitsel bilginin kaynaştırılmasıdır. Bu çalışma, görsel ve işitsel bilginin kaynaştırılması problemine odaklanmakta ve özgün bir görsel-işitsel konuşma tanıma sistemi önermektedir.Önerilen yöntemde, her iki bilgi akımı için ayrı olarak Gauss karışımı modeli eğitilmektedir. Eğitilen Gauss karışımı modelinden elde edilen her iki akıma ait sonsal olasılık vektörleri birleştirilmekte ve birleştirilmiş sonsal olasılık vektörleriyle Doğrusal Ayırtaç Sınıflandırıcısı eğitilmektedir. Bu şekilde, görsel ve işitsel bilgi kaynaştırılmış olmaktadır. Doğrusal Ayırtaç Sınıflandırıcısı çıktısı olan sonsal olasılık vektörleri ise Saklı Markov Modelleri için gözlem vektörleri olarak kullanılmaktadır.Önerilen yaklaşım ile tasarlanan kişiden bağımsız rakam tanıma sistemi, değişen seviyelerde araba gürültüsünün mevcut olduğu koşullarda sınanmaktadır. Yeni yöntem, şu ana dek önerilmiş en başarılı görsel-işitsel konuşma tanıma sistemlerinden biri olarak kabul edilen Çok Akımlı Saklı Markov Modeli (ÇASMM) ile tanıma oranı ve hız açısından karşılaştırılmaktadır. Deneysel sonuçlar, önerilen yöntemin MSHMM yöntemine göre daha az işlem yüküyle yakın tanıma oranlarına ulaşabildiğini göstermektedir.

Özet (Çeviri)

Speech is the most frequently preferred medium for humans to interact with their environment making it an ideal instrument for future human-computer interfaces. However, for the speech recognition systems to take part in real life applications, high recognition accuracy together with speaker independency and robustness to hostile conditions is necessary.The main preoccupation for speech recognition systems is acoustic noise. Audio Visual Speech Recognition systems intend to overcome the noise problem utilizing visual speech information generally extracted from the face or in particular the lip region. Visual speech information is known to be a complementary source for speech perception and is not impacted by acoustic noise. This advantage brings in two additional issues into the task which are visual feature extraction and information fusion.There is extensive research on both issues but an admissable level of success has not been reached yet. This work concentrates on the issue of information fusion and proposes a novel methodology. The aim of the proposed technique is to deploy a preliminary decision stage at frame level as the first base and feed the Hidden Markov Model with the output posterior probabilities derived in the preliminary decision stage. First, Gaussian Mixture Model (GMM) classification is performed for each modality separately. Sequentially the individual classifiers of each modality are combined with Linear Discriminant Classifier (LDC) to obtain posterior probability vectors corresponding to each speech frame. The purpose of using a preliminary stage is to integrate acoustic and visual data for maximum class separability. Hidden Markov Models are employed as the second stage of modelling because of their abilityto handle temporal evolutions of data.The proposed approach is investigated in a speaker independent scenario for digit recognition with the existence of diverse levels of car noise. The method is compared with a principal information fusion framework in audio visual speech recognition which is Multiple Stream Hidden Markov Models. Results on M2VTS database show that the proposed method achieves resembling performance with less processing time as compared to MSHMM.

Benzer Tezler

Tez No
401591
Enabling dynamics in face analysis
Başlık çevirisi yok
HAMDİ DİBEKLİOĞLU
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Universiteit van Amsterdam
PROF. DR. THEO GEVERS
PROF. DR. A. W. M. SMEULDERS
Tez No
320731
Ray: A profile-based approach for homology matching of tandem-ms spectra to sequence databases
Ray: Dizi veritabanlarında tandem ms spektraların homolji eşleşmesini sağlamak amacı ile profile dayalı yaklaşım
ŞULE YILMAZ
Yüksek Lisans
İngilizce
2012
Biyoteknoloji İzmir Yüksek Teknoloji Enstitüsü
Biyoteknoloji Ana Bilim Dalı
DOÇ. DR. JENS ALLMER
DOÇ. DR. BİLGE KARAÇALI
Tez No
273562
Basın işletmelerinde ISO 9001:2008 Kalite Yönetim Sisteminin uygulanması
Application of ISO 9001:2008 Quality Management System in press companies
ÖZNUR AYŞE GİRİT
Doktora
Türkçe
2010
Gazetecilik Marmara Üniversitesi
İletişim Ana Bilim Dalı
PROF. DR. TÜRKAN UĞUR DAİ
Tez No
526926
Using crosslingual information for keyword search in low resource languages
Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı
BOLAJI YUSUF
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik Elektronik Mühendisliği Bilim Dalı
PROF. DR. MURAT SARAÇLAR
Tez No
2173
Çeşitli şekillerde düzenlenmiş iki silindir etrafındaki akım alanının incelenmesi
Investigation of the flow araund two circular cylinders in various arrangements
M.NEVZAT ÖZKAN
Doktora
Türkçe
1985
Uçak Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. M. ZEKİ ERİM

Geri Dön