Sub-word language modeling for Turkish speech recognition

Türkçe ses tanıma için sözcük altı dil modelleme

PDF İndir

Tez No: 197636
Yazar: OSMAN BÜYÜK
Danışmanlar: YRD. DOÇ. HAKAN ERDOĞAN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2005
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

ÖZETTürkçe gibi eklemeli dillerdeki geniş dağarcıklı konuşma tanıma uygulamalarında, kelimelertanıma sisteminin birimi olarak seçildiğinde sınama için kullanılan kelimeleri kapsama ileilgili sorunlar çıkmaktadır. Bu sorunu ortadan kaldırabilmek için kelime altı birimlerdenyararlanılabilir. Geniş dağarcıklı konuşma tanıma uygulamasını gerçekleştirebilmek içinkelime altı birimler kullanılarak bir dil modeli geliştirilebilir. Bununla beraber kelime altıbirimlerin kısa olması nedeniyle yeteri kadar akustik bilgi içermemesi, birimler arasındakiakustik karışıklık olasılığını arttırmaktadır. Ayrıca kelime altı birimlerle elde edilen dilmodelinde kelime dil modeline göre daha kısa bir geçmiş kullanılmaktadır. Bu sorunlarnedeniyle kelime altı birimlerin kullanımı ile sistemde her zaman beklenen başarım artışısağlanamayabilmektedir. Bu problemleri ortadan kaldırabilmek için, bu çalışmada tanımasözlüğünde kullanılabilecek en büyük kelime altı birim olan yarı-kelimelerin yada tamkelimelerin kullamı önerilmiştir. Buna ek olarak istatistiksel dil modeline yarı kelimebirleşimlerindeki dilsel kısıtlamalar da dahil edilmiştir. Ağırlıklı sonlu durum makinesi ileifade edilebilecek dilsel kısıtlamalar, daha küçük ve daha iyi bir dil modeli elde edebilmekiçin istatiksel modelleriyle birleştirelebilir. Bu çalışmada önerilen sistemin, ağırlıklı sonludurum makinesi kelimelerin ekleri ve kökleri arasındaki ünlü uyumunu zorladığındakibaşarımı ölçülmüştür. Türkçe gibi eklemeli dillerdeki hata oranlarını kelime hata oranına göredaha iyi gösterebilecek ölçü birimleri de teklif edilmiştir. Yarı-kelimelerle elde edilen ikili dilmodeli, tam-kelimelerle elde edilen ikili dil modeline göre kelime hata oranları açısından dahaiyi sonuçlar vermiştir. Buna ek olarak üçlü-dil modelinin ünlü uyumunu sağlayan ağırlıklısonlu durum makinesi ile birleştirilmesi sonucunda elde edilen dil modeli, hata oranlarınıönemli ölçüde azaltmıştır.

Özet (Çeviri)

ABSTRACTIn large vocabulary continuous speech recognition (LVCSR) for agglutinative languages, weencounter problems due to theoretically infinite full-word lexicon size. Sub-word lexiconunits may be utilized to dramatically reduce the out-of-vocabulary rate in test data. One candevelop language models based on sub-word units to perform LVCSR. However, it has notalways been beneficial to use sub-word lexicon units, since shorter units have higher acousticconfusability among them and language model history is effectively shorter as compared tothe history in full-word language models. To reduce the aforementioned problems, wepropose using the longest possible sub-word units in our lexicon, namely half-words and full-words only. We also incorporate linguistic rules of half word combination into our statisticallanguage model. The language constraints are represented with a rule-based WFSM, whichcan be combined with an N-gram language model to yield a better and smaller languagemodel. We study the performance of the proposed system for Turkish LVCSR when thelanguage constraint takes the form of enforcing vowel harmony between stems and endings.We also introduce novel error-rate metrics that are more appropriate than word-error-rate foragglutinative languages. Using half-words with a bi-gram model yields a reduction in word-error-rate as compared to a bi-gram full-word model. In addition, combining a tri-gram half-word language model with the vowel-harmony WFSM significantly improves the accuracyfurther when re-scoring the bi-gram lattices.

Benzer Tezler

Tez No
232620
Investigation of automatically derived subword units for turkish LVCSR
Türkçe GDSKT için otomatik olarak elde edilmiş kelime altı modellerin incelenmesi
TUNCAY AKSUNGURLU
Yüksek Lisans
İngilizce
2008
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik ve Elektronik Mühendisliği Bölümü
YRD. DOÇ. MURAT SARAÇLAR
Tez No
255903
Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
Tez No
301660
Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
HAŞİM SAK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
DOÇ. DR. TUNGA GÜNGÖR
Tez No
590746
Türkçe dizi etiketleme için sinir ağ modelleri
Neural models for Turkish sequence labeling
YASİN EŞREF
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
Tez No
384122
Moves in discussions: A corpus-based genre analysis of the discussion sections in applied linguistics research articles written in English
Tartışma bölümlerindeki işlevsel geçişler: Uygulamalı dilbilim alanında İngilizce yazılmış araştırma makalelerinin tartışma bölümlerinin derleme dayalı tür analizi
EVRİM EVEYİK AYDIN
Doktora
İngilizce
2015
Dilbilim Yeditepe Üniversitesi
İngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ERKAN KARABACAK

Geri Dön