Combined speech recognition from audio and video information
Görsel ve işitsel bilgi kullanılarak birleşik söz tanıma
- Tez No: 82976
- Danışmanlar: DOÇ. DR. LALE AKARUN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 1999
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 102
Özet
ÖZET Konuşma tanımada görsel bilgi kullanılması insan konuşmasının tanınmasında önemli ipuçları verir. Görsel-işitsel konuşma tanıma sistemleri akustik ses bilgisinin yanısıra konuşma esnasında dudakların hareketine bağlı öznitelikleri de kullanırlar. Bu tezde değişik insanlardan örneklenmiş olan 'sıfır' dan 'dokuz' a kadar Türkçe rakamları yüksek başarıyla tanıyabilecek görsel ve işitsel bilgi kullanani, kısıtlı kelime hazneli bir konuşma tanıma sistemi geliştirilmesi hedeflenmiştir. Kullanılan tekniklerin bir kısmı literatürde varolan güncel tekniklerdir, diğer kısmıysa güncel tekniklerin geliştirilmesiyle elde edilmiştir. Çalışma üç ana başlıkta toplanabilir: öznitelik çıkarımı, konuşma tanıma, ve tanıma motorlarından elde edilen sonuçların birleştirilmesi. Öznitelik çıkarımı konuşmanın görsel ve işitsel karakteristiklerini çıkarsama amaçlıdır. İşitsel öznitelik olarak kepstral katsayılar seçilmiştir. Görsel öznitelik çıkarımı kısmında ise değişik teknikler denenmiştir: resmin yoğunluğu ve geometrisi dikkate alınmıştır; dudak modelinin katsayılarına bakılmıştır; dudakların biçim ve konumunda değişikliğe yol açan dinamik öznitelikler gözlemlenmiştir. Tanıma amacıyla iki sınıflandıncı yaratılmıştır. Bunlardan birincisi Saklı Markov Modeü, ikincisi Bulanık K- Yakın Komşu sınıflandırıcısıdır. Son olarak sonuçların birleştirilmesi amacıyla iki değişik teknik geliştirilmiştir.
Özet (Çeviri)
IV ABSTRACT Visual information in speech recognition provides important clues for the understanding of human speech. Audio-Visual Speech Recognition systems use features that are related to Up movements in addition to acoustic information. In this thesis an attempt is made for building a limited-vocabulary speech recognition system that gives good results in the recognition of isolated Turkish digits from zero to nine, uttered by different speakers, using both audio and visual information. Some of the techniques used here are similar to contemporary approaches and some are modifications of the existing ones. The work consists of three main parts: feature extraction, speech recognition, and integration of the results achieved by the recognition engines. Cepstral coefficients, have been selected as audio features. In visual feature extraction, different approaches have been taken: intensity and geometry of the image are considered; parameters of the Up-model are used; and dynamics features, which account for the changing of lip shapes and positions, are considered. For the recognition purposes, two different classifiers are created. The first one is an HMM and the second one is a Fuzzy K-Nearest Neighbor classifier. Furthermore, two different kinds of techniques for integration of the results are developed.
Benzer Tezler
- Indexation, retrieval and decision techniques for spoken term detection
Konuşulan terimlerin saptanmak için dizinleme, geri getirim ve karar teknikleri
DOĞAN CAN
Yüksek Lisans
İngilizce
2010
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
- Coğrafi bilgi sistemlerinde geovideo/audio kullanımı
Geovideo/audio use of geographic information systems
AHMET EMİN KARKINLI
Doktora
Türkçe
2017
Mühendislik BilimleriErciyes ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
PROF. DR. ERKAN BEŞDOK
- Audio-visual affect recognition
Yüz ifadeleri ve sesten çok-kipli duygu tanıma
SARA ZHALEHPOUR
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik MühendisliğiBahçeşehir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. ÇİĞDEM EROĞLU ERDEM
- Pre-filtered dynamic time warping for posteriorgram based keyword search
Posteriorgram tabanlı anahtar sözcük arama için ön filtrelemeli dinamik zaman bükme algoritması
GÖZDE ÇETİNKAYA
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
- Tandem approach for information fusion in audio visual speech recognition
Görsel-işitsel konuşma tanımada ardışık veri kaynaştırma yaklaşımı
HARUN KARABALKAN
Yüksek Lisans
İngilizce
2009
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Mühendisliği Bölümü
YRD. DOÇ. DR. HAKAN ERDOĞAN