Geri Dön

Language modeling for Turkish continuous speech recognition

Türkçe akan konuşma tanıma için dil modellemesi

  1. Tez No: 143590
  2. Yazar: SERKAN ŞAHİN
  3. Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Konuşma tanıma, akan konuşma, dil modeli, kelime ikilisi, kelime üçlüsü, iki geçişli tanıma, gövde, parçalama, Türkçe biçimbilim, Speech Recognition, continuous speech, language model, bigrams, trigrams, two pass recognition, stem, ending, parsing, Turkish morphology
  7. Yıl: 2003
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 108

Özet

Bu çalışmada, Türkçe için akan konuşma tanıma sisteminde kullanılacak yeni bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, sondan eklemeli özelliğinden dolayı kelime biçimleri açısından çok üretken bir dildir. Böylesi diller için dağarcık boyutu kabul edilebilir olmaktan uzaktır. Basit bir gövde kullanarak, yapım ve çekim ekleri sayesinde binlerce yeni biçimli kelime üretilebiür.Bu çalışmada sözcükler gövde ve eklerine ayrılmışlardır. İlk olarak, ekler kelime gibi kabul edilip ikili kelime olasılıkları elde edilmiştir. Daha sonra, ikili kelime olasılıkları yalnızca gövdeler üzerinden elde edilmiştir. Bu Acili kelime olasılıkları kullanılarak tek geçişte tanıma işlemi gerçekleştirilmiştir. İkinci çalışma olarak, iki geçişli tanıma işlemi gerçekleştirilmiştir. Bunun için öncelikle daha önce elde edilen ikili kelime olasılıkları kullanılarak kelime latisleri oluşturulmuştur. İkincil olarak daha geniş bir metin dosyasından üçlü kelime olasılıkları elde edilmiştir. Son olarak bu kelime latisleri ve üçlü kelime olasılıkları kullanılarak en iyi kelime dizisi ortaya çıkarılmaya çalışılmıştır. Gövde-ek ayırma ve ağ dönüştürme işlemleri dışında tüm işlemler Hidden Markov Model Toolkit (HTK) ile gerçekleştirilmiştir.

Özet (Çeviri)

This study aims to build a new language model for Turkish continuous speech recognition. Turkish is very productive language in terms of word forms because of its agglutinative nature. For such languages like Turkish, the vocabulary size is far from being acceptable from only one simple stem, thousands of new words can be generated using inflectional and derivational suffixes. In this work, word are parsed into their stem and endings. First of all, we consider endings as words and we obtained bigram probabilities using stem and endings. Then, bigram probabilities are obtained using only the stems. Single pass recognition was performed by using bigram probabilities. As a second job, two pass recognition was performed. Firstly, previous bigram probabilities were used to create word lattices. Secondly, trigram probabilities were obtained from a larger text. Finally, one-best results were obtained by using word lattices and trigram probabilities. All work is done in Hidden Markov Model Toolkit (HTK) environment, except parsing and network transforming.

Benzer Tezler

  1. A study on language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma

    ALİ ORKAN BAYER

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. MELTEM TURHAN YÖNDEM

    DOÇ. DR. TOLGA ÇİLOĞLU

  2. Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

    EBRU ARISOY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAÇLAR

  3. Sub-word language modeling for Turkish speech recognition

    Türkçe ses tanıma için sözcük altı dil modelleme

    OSMAN BÜYÜK

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. HAKAN ERDOĞAN

  4. Investigation of automatically derived subword units for turkish LVCSR

    Türkçe GDSKT için otomatik olarak elde edilmiş kelime altı modellerin incelenmesi

    TUNCAY AKSUNGURLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. MURAT SARAÇLAR

  5. A continuous speech recognition system for Turkish language based on triphone model

    Üçlü ses modelli Türkçe sürekli konuşma tanıma sistemi

    FATMA PATLAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ERTUĞRUL SAATÇİ