Geri Dön

Large vocabulary continuous speech recognition for Turkish using HTK

HTK ile Türkçe için geniş dağarcıklı akan konuşma tanıma

  1. Tez No: 143257
  2. Yazar: MURAT ALİ ÇÖMEZ
  3. Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Konuşma tanıma, geniş dağarcık, akan konuşma, dil modeli, sözcük ikilisi, kök, ayrıştırma, Türkçe biçimbilim, Speech recognition, large vocabulary, continuous speech, language model, bigrams, stem, ending, parsing, Turkish morphology
  7. Yıl: 2003
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 114

Özet

Bu çalışmada, Türkçe için geniş dağarcıklı bir akan konuşma tanıma sisteminde kullanılacak bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, eklemeli bir dil olarak, sözcük biçimleri açısından çok üretken bir dildir. Bu tür diller için, dağarcık boyutu kabul edilebilir olmaktan bir hayli uzaktır. Yalnızca basit bir kökten, yapım ve çekim eklerini kullanarak binlerce yeni biçimli sözcük türetilebilir. Bu tezde, sözcükler kök ve eklerine ayrılmışlardır. Daha sonra sözcük ikililerine dayalı ağ yapısı oluşturulmuştur. Sözcük ikililerine ait olasılıklar ya kök ve ekler üzerinden, ya da yalnızca kökler üzerinden elde edilmişlerdir. Önerilen dil modeli ise yalnızca kökler kullanılarak elde edilen sözcük ikililerine ait olasılıklara dayanmaktadır. Ek- kök ayrıştırma ve ağ dönüştürme işlemleri dışında tüm çalışma HTK (Hidden Markov Model Toolkit) ile gerçekleştirilmiştir. Türkçe için yeni bir dil modeli geliştirilmesinin yanısıra bu tezde, günümüz konuşma tanıma sistemlerine özgü kavramlara değinen kapsamlı bir çalışma yapılmıştır. Bu kavramlara ve konuşma tanıma tekniği içerisindeki süreçlere hakimiyetin sağlanması amacıyla ayrık kelime tanıma, ardışık kelime tanıma ve akan konuşma tanıma deneyleri gerçekleştirilmiştir. Bu deneylere ait sonuçlar ise ayrıca verilmiştir.

Özet (Çeviri)

This study aims to build a new language model that can be used in a Turkish large vocabulary continuous speech recognition system. Turkish is a very productive language in terms of word forms because of its agglutinative nature. For such languages like Turkish, the vocabulary size is far from being acceptable. From only one simple stem, thousands of new word forms can be generated using inflectional or derivational suffixes. In this thesis, words are parsed into their stems and endings. One ending includes the suffixes attached to the associated root. Then the search network based on Digrams is constructed. Bigrams are obtained either using stem and endings, or using only stems. The language model proposed is based on bigrams obtained using only stems. All work is done in HTK (Hidden Markov Model Toolkit) environment, except parsing and network transforming. Besides of offering a new language model for Turkish, this study involves a comprehensive work about speech recognition inspecting into concepts in the state of the art speech recognition systems. To acquire good command of these concepts and processes in speech recognition isolated word, connected word and continuous speech recognition tasks are performed. The experimental results associated with these tasks are also given.

Benzer Tezler

  1. A study on language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma

    ALİ ORKAN BAYER

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. MELTEM TURHAN YÖNDEM

    DOÇ. DR. TOLGA ÇİLOĞLU

  2. Language modeling for Turkish continuous speech recognition

    Türkçe akan konuşma tanıma için dil modellemesi

    SERKAN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA ÇİLOĞLU

  3. Sub-word language modeling for Turkish speech recognition

    Türkçe ses tanıma için sözcük altı dil modelleme

    OSMAN BÜYÜK

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. HAKAN ERDOĞAN

  4. Turkish large vocabulary continuous speech recognition by using limited audio corpus

    Kısıtlı ses külliyatı ile Türkçe geniş dağarcıklı sürekli konuşma tanıma

    DERYA SUSMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    DR. SELÇUK KÖPRÜ

    PROF. DR. ADNAN YAZICI

  5. Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

    EBRU ARISOY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAÇLAR