Language modeling for Turkish continuous speech recognition

Türkçe akan konuşma tanıma için dil modellemesi

Tez No: 143590
Yazar: SERKAN ŞAHİN
Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Konuşma tanıma, akan konuşma, dil modeli, kelime ikilisi, kelime üçlüsü, iki geçişli tanıma, gövde, parçalama, Türkçe biçimbilim, Speech Recognition, continuous speech, language model, bigrams, trigrams, two pass recognition, stem, ending, parsing, Turkish morphology
Yıl: 2003
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 108

Özet

Bu çalışmada, Türkçe için akan konuşma tanıma sisteminde kullanılacak yeni bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, sondan eklemeli özelliğinden dolayı kelime biçimleri açısından çok üretken bir dildir. Böylesi diller için dağarcık boyutu kabul edilebilir olmaktan uzaktır. Basit bir gövde kullanarak, yapım ve çekim ekleri sayesinde binlerce yeni biçimli kelime üretilebiür.Bu çalışmada sözcükler gövde ve eklerine ayrılmışlardır. İlk olarak, ekler kelime gibi kabul edilip ikili kelime olasılıkları elde edilmiştir. Daha sonra, ikili kelime olasılıkları yalnızca gövdeler üzerinden elde edilmiştir. Bu Acili kelime olasılıkları kullanılarak tek geçişte tanıma işlemi gerçekleştirilmiştir. İkinci çalışma olarak, iki geçişli tanıma işlemi gerçekleştirilmiştir. Bunun için öncelikle daha önce elde edilen ikili kelime olasılıkları kullanılarak kelime latisleri oluşturulmuştur. İkincil olarak daha geniş bir metin dosyasından üçlü kelime olasılıkları elde edilmiştir. Son olarak bu kelime latisleri ve üçlü kelime olasılıkları kullanılarak en iyi kelime dizisi ortaya çıkarılmaya çalışılmıştır. Gövde-ek ayırma ve ağ dönüştürme işlemleri dışında tüm işlemler Hidden Markov Model Toolkit (HTK) ile gerçekleştirilmiştir.

Özet (Çeviri)

This study aims to build a new language model for Turkish continuous speech recognition. Turkish is very productive language in terms of word forms because of its agglutinative nature. For such languages like Turkish, the vocabulary size is far from being acceptable from only one simple stem, thousands of new words can be generated using inflectional and derivational suffixes. In this work, word are parsed into their stem and endings. First of all, we consider endings as words and we obtained bigram probabilities using stem and endings. Then, bigram probabilities are obtained using only the stems. Single pass recognition was performed by using bigram probabilities. As a second job, two pass recognition was performed. Firstly, previous bigram probabilities were used to create word lattices. Secondly, trigram probabilities were obtained from a larger text. Finally, one-best results were obtained by using word lattices and trigram probabilities. All work is done in Hidden Markov Model Toolkit (HTK) environment, except parsing and network transforming.

Benzer Tezler

Tez No
166835
A study on language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma
ALİ ORKAN BAYER
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. MELTEM TURHAN YÖNDEM
DOÇ. DR. TOLGA ÇİLOĞLU
Tez No
255903
Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
Tez No
197636
Sub-word language modeling for Turkish speech recognition
Türkçe ses tanıma için sözcük altı dil modelleme
OSMAN BÜYÜK
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik Mühendisliği Sabancı Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HAKAN ERDOĞAN
Tez No
232620
Investigation of automatically derived subword units for turkish LVCSR
Türkçe GDSKT için otomatik olarak elde edilmiş kelime altı modellerin incelenmesi
TUNCAY AKSUNGURLU
Yüksek Lisans
İngilizce
2008
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik ve Elektronik Mühendisliği Bölümü
YRD. DOÇ. MURAT SARAÇLAR
Tez No
237078
A continuous speech recognition system for Turkish language based on triphone model
Üçlü ses modelli Türkçe sürekli konuşma tanıma sistemi
FATMA PATLAR
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERTUĞRUL SAATÇİ

Geri Dön