Large vocabulary continuous speech recognition for Turkish using HTK
HTK ile Türkçe için geniş dağarcıklı akan konuşma tanıma
- Tez No: 143257
- Danışmanlar: DOÇ. DR. TOLGA ÇİLOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Konuşma tanıma, geniş dağarcık, akan konuşma, dil modeli, sözcük ikilisi, kök, ayrıştırma, Türkçe biçimbilim, Speech recognition, large vocabulary, continuous speech, language model, bigrams, stem, ending, parsing, Turkish morphology
- Yıl: 2003
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 114
Özet
Bu çalışmada, Türkçe için geniş dağarcıklı bir akan konuşma tanıma sisteminde kullanılacak bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, eklemeli bir dil olarak, sözcük biçimleri açısından çok üretken bir dildir. Bu tür diller için, dağarcık boyutu kabul edilebilir olmaktan bir hayli uzaktır. Yalnızca basit bir kökten, yapım ve çekim eklerini kullanarak binlerce yeni biçimli sözcük türetilebilir. Bu tezde, sözcükler kök ve eklerine ayrılmışlardır. Daha sonra sözcük ikililerine dayalı ağ yapısı oluşturulmuştur. Sözcük ikililerine ait olasılıklar ya kök ve ekler üzerinden, ya da yalnızca kökler üzerinden elde edilmişlerdir. Önerilen dil modeli ise yalnızca kökler kullanılarak elde edilen sözcük ikililerine ait olasılıklara dayanmaktadır. Ek- kök ayrıştırma ve ağ dönüştürme işlemleri dışında tüm çalışma HTK (Hidden Markov Model Toolkit) ile gerçekleştirilmiştir. Türkçe için yeni bir dil modeli geliştirilmesinin yanısıra bu tezde, günümüz konuşma tanıma sistemlerine özgü kavramlara değinen kapsamlı bir çalışma yapılmıştır. Bu kavramlara ve konuşma tanıma tekniği içerisindeki süreçlere hakimiyetin sağlanması amacıyla ayrık kelime tanıma, ardışık kelime tanıma ve akan konuşma tanıma deneyleri gerçekleştirilmiştir. Bu deneylere ait sonuçlar ise ayrıca verilmiştir.
Özet (Çeviri)
This study aims to build a new language model that can be used in a Turkish large vocabulary continuous speech recognition system. Turkish is a very productive language in terms of word forms because of its agglutinative nature. For such languages like Turkish, the vocabulary size is far from being acceptable. From only one simple stem, thousands of new word forms can be generated using inflectional or derivational suffixes. In this thesis, words are parsed into their stems and endings. One ending includes the suffixes attached to the associated root. Then the search network based on Digrams is constructed. Bigrams are obtained either using stem and endings, or using only stems. The language model proposed is based on bigrams obtained using only stems. All work is done in HTK (Hidden Markov Model Toolkit) environment, except parsing and network transforming. Besides of offering a new language model for Turkish, this study involves a comprehensive work about speech recognition inspecting into concepts in the state of the art speech recognition systems. To acquire good command of these concepts and processes in speech recognition isolated word, connected word and continuous speech recognition tasks are performed. The experimental results associated with these tasks are also given.
Benzer Tezler
- A study on language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı sürekli konuşma tanıma için dil modelleme üzerine bir çalışma
ALİ ORKAN BAYER
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. MELTEM TURHAN YÖNDEM
DOÇ. DR. TOLGA ÇİLOĞLU
- Language modeling for Turkish continuous speech recognition
Türkçe akan konuşma tanıma için dil modellemesi
SERKAN ŞAHİN
Yüksek Lisans
İngilizce
2003
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA ÇİLOĞLU
- Sub-word language modeling for Turkish speech recognition
Türkçe ses tanıma için sözcük altı dil modelleme
OSMAN BÜYÜK
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HAKAN ERDOĞAN
- Turkish large vocabulary continuous speech recognition by using limited audio corpus
Kısıtlı ses külliyatı ile Türkçe geniş dağarcıklı sürekli konuşma tanıma
DERYA SUSMAN
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
DR. SELÇUK KÖPRÜ
PROF. DR. ADNAN YAZICI
- Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR