Geri Dön

Combined speech recognition from audio and video information

Görsel ve işitsel bilgi kullanılarak birleşik söz tanıma

  1. Tez No: 82976
  2. Yazar: JASMİNA STEVKOVSKA
  3. Danışmanlar: DOÇ. DR. LALE AKARUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1999
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

ÖZET Konuşma tanımada görsel bilgi kullanılması insan konuşmasının tanınmasında önemli ipuçları verir. Görsel-işitsel konuşma tanıma sistemleri akustik ses bilgisinin yanısıra konuşma esnasında dudakların hareketine bağlı öznitelikleri de kullanırlar. Bu tezde değişik insanlardan örneklenmiş olan 'sıfır' dan 'dokuz' a kadar Türkçe rakamları yüksek başarıyla tanıyabilecek görsel ve işitsel bilgi kullanani, kısıtlı kelime hazneli bir konuşma tanıma sistemi geliştirilmesi hedeflenmiştir. Kullanılan tekniklerin bir kısmı literatürde varolan güncel tekniklerdir, diğer kısmıysa güncel tekniklerin geliştirilmesiyle elde edilmiştir. Çalışma üç ana başlıkta toplanabilir: öznitelik çıkarımı, konuşma tanıma, ve tanıma motorlarından elde edilen sonuçların birleştirilmesi. Öznitelik çıkarımı konuşmanın görsel ve işitsel karakteristiklerini çıkarsama amaçlıdır. İşitsel öznitelik olarak kepstral katsayılar seçilmiştir. Görsel öznitelik çıkarımı kısmında ise değişik teknikler denenmiştir: resmin yoğunluğu ve geometrisi dikkate alınmıştır; dudak modelinin katsayılarına bakılmıştır; dudakların biçim ve konumunda değişikliğe yol açan dinamik öznitelikler gözlemlenmiştir. Tanıma amacıyla iki sınıflandıncı yaratılmıştır. Bunlardan birincisi Saklı Markov Modeü, ikincisi Bulanık K- Yakın Komşu sınıflandırıcısıdır. Son olarak sonuçların birleştirilmesi amacıyla iki değişik teknik geliştirilmiştir.

Özet (Çeviri)

IV ABSTRACT Visual information in speech recognition provides important clues for the understanding of human speech. Audio-Visual Speech Recognition systems use features that are related to Up movements in addition to acoustic information. In this thesis an attempt is made for building a limited-vocabulary speech recognition system that gives good results in the recognition of isolated Turkish digits from zero to nine, uttered by different speakers, using both audio and visual information. Some of the techniques used here are similar to contemporary approaches and some are modifications of the existing ones. The work consists of three main parts: feature extraction, speech recognition, and integration of the results achieved by the recognition engines. Cepstral coefficients, have been selected as audio features. In visual feature extraction, different approaches have been taken: intensity and geometry of the image are considered; parameters of the Up-model are used; and dynamics features, which account for the changing of lip shapes and positions, are considered. For the recognition purposes, two different classifiers are created. The first one is an HMM and the second one is a Fuzzy K-Nearest Neighbor classifier. Furthermore, two different kinds of techniques for integration of the results are developed.

Benzer Tezler

  1. Indexation, retrieval and decision techniques for spoken term detection

    Konuşulan terimlerin saptanmak için dizinleme, geri getirim ve karar teknikleri

    DOĞAN CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAÇLAR

  2. Coğrafi bilgi sistemlerinde geovideo/audio kullanımı

    Geovideo/audio use of geographic information systems

    AHMET EMİN KARKINLI

    Doktora

    Türkçe

    Türkçe

    2017

    Mühendislik BilimleriErciyes Üniversitesi

    Harita Mühendisliği Ana Bilim Dalı

    PROF. DR. ERKAN BEŞDOK

  3. Audio-visual affect recognition

    Yüz ifadeleri ve sesten çok-kipli duygu tanıma

    SARA ZHALEHPOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiBahçeşehir Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. ÇİĞDEM EROĞLU ERDEM

  4. Pre-filtered dynamic time warping for posteriorgram based keyword search

    Posteriorgram tabanlı anahtar sözcük arama için ön filtrelemeli dinamik zaman bükme algoritması

    GÖZDE ÇETİNKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

  5. Tandem approach for information fusion in audio visual speech recognition

    Görsel-işitsel konuşma tanımada ardışık veri kaynaştırma yaklaşımı

    HARUN KARABALKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Mühendisliği Bölümü

    YRD. DOÇ. DR. HAKAN ERDOĞAN