Language modeling for Turkish continuous speech recognition
Türkçe akan konuşma tanıma için dil modellemesi
- Tez No: 143590
- Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Konuşma tanıma, akan konuşma, dil modeli, kelime ikilisi, kelime üçlüsü, iki geçişli tanıma, gövde, parçalama, Türkçe biçimbilim, Speech Recognition, continuous speech, language model, bigrams, trigrams, two pass recognition, stem, ending, parsing, Turkish morphology
- Yıl: 2003
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 108
Özet
Bu çalışmada, Türkçe için akan konuşma tanıma sisteminde kullanılacak yeni bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, sondan eklemeli özelliğinden dolayı kelime biçimleri açısından çok üretken bir dildir. Böylesi diller için dağarcık boyutu kabul edilebilir olmaktan uzaktır. Basit bir gövde kullanarak, yapım ve çekim ekleri sayesinde binlerce yeni biçimli kelime üretilebiür.Bu çalışmada sözcükler gövde ve eklerine ayrılmışlardır. İlk olarak, ekler kelime gibi kabul edilip ikili kelime olasılıkları elde edilmiştir. Daha sonra, ikili kelime olasılıkları yalnızca gövdeler üzerinden elde edilmiştir. Bu Acili kelime olasılıkları kullanılarak tek geçişte tanıma işlemi gerçekleştirilmiştir. İkinci çalışma olarak, iki geçişli tanıma işlemi gerçekleştirilmiştir. Bunun için öncelikle daha önce elde edilen ikili kelime olasılıkları kullanılarak kelime latisleri oluşturulmuştur. İkincil olarak daha geniş bir metin dosyasından üçlü kelime olasılıkları elde edilmiştir. Son olarak bu kelime latisleri ve üçlü kelime olasılıkları kullanılarak en iyi kelime dizisi ortaya çıkarılmaya çalışılmıştır. Gövde-ek ayırma ve ağ dönüştürme işlemleri dışında tüm işlemler Hidden Markov Model Toolkit (HTK) ile gerçekleştirilmiştir.
Özet (Çeviri)
This study aims to build a new language model for Turkish continuous speech recognition. Turkish is very productive language in terms of word forms because of its agglutinative nature. For such languages like Turkish, the vocabulary size is far from being acceptable from only one simple stem, thousands of new words can be generated using inflectional and derivational suffixes. In this work, word are parsed into their stem and endings. First of all, we consider endings as words and we obtained bigram probabilities using stem and endings. Then, bigram probabilities are obtained using only the stems. Single pass recognition was performed by using bigram probabilities. As a second job, two pass recognition was performed. Firstly, previous bigram probabilities were used to create word lattices. Secondly, trigram probabilities were obtained from a larger text. Finally, one-best results were obtained by using word lattices and trigram probabilities. All work is done in Hidden Markov Model Toolkit (HTK) environment, except parsing and network transforming.
Benzer Tezler
- A study on language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma
ALİ ORKAN BAYER
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. MELTEM TURHAN YÖNDEM
DOÇ. DR. TOLGA ÇİLOĞLU
- Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
- Sub-word language modeling for Turkish speech recognition
Türkçe ses tanıma için sözcük altı dil modelleme
OSMAN BÜYÜK
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HAKAN ERDOĞAN
- Investigation of automatically derived subword units for turkish LVCSR
Türkçe GDSKT için otomatik olarak elde edilmiş kelime altı modellerin incelenmesi
TUNCAY AKSUNGURLU
Yüksek Lisans
İngilizce
2008
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
YRD. DOÇ. MURAT SARAÇLAR
- A continuous speech recognition system for Turkish language based on triphone model
Üçlü ses modelli Türkçe sürekli konuşma tanıma sistemi
FATMA PATLAR
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERTUĞRUL SAATÇİ