Geri Dön

Sub-word language modeling for Turkish speech recognition

Türkçe ses tanıma için sözcük altı dil modelleme

  1. Tez No: 197636
  2. Yazar: OSMAN BÜYÜK
  3. Danışmanlar: YRD. DOÇ. HAKAN ERDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2005
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 84

Özet

ÖZETTürkçe gibi eklemeli dillerdeki geniş dağarcıklı konuşma tanıma uygulamalarında, kelimelertanıma sisteminin birimi olarak seçildiğinde sınama için kullanılan kelimeleri kapsama ileilgili sorunlar çıkmaktadır. Bu sorunu ortadan kaldırabilmek için kelime altı birimlerdenyararlanılabilir. Geniş dağarcıklı konuşma tanıma uygulamasını gerçekleştirebilmek içinkelime altı birimler kullanılarak bir dil modeli geliştirilebilir. Bununla beraber kelime altıbirimlerin kısa olması nedeniyle yeteri kadar akustik bilgi içermemesi, birimler arasındakiakustik karışıklık olasılığını arttırmaktadır. Ayrıca kelime altı birimlerle elde edilen dilmodelinde kelime dil modeline göre daha kısa bir geçmiş kullanılmaktadır. Bu sorunlarnedeniyle kelime altı birimlerin kullanımı ile sistemde her zaman beklenen başarım artışısağlanamayabilmektedir. Bu problemleri ortadan kaldırabilmek için, bu çalışmada tanımasözlüğünde kullanılabilecek en büyük kelime altı birim olan yarı-kelimelerin yada tamkelimelerin kullamı önerilmiştir. Buna ek olarak istatistiksel dil modeline yarı kelimebirleşimlerindeki dilsel kısıtlamalar da dahil edilmiştir. Ağırlıklı sonlu durum makinesi ileifade edilebilecek dilsel kısıtlamalar, daha küçük ve daha iyi bir dil modeli elde edebilmekiçin istatiksel modelleriyle birleştirelebilir. Bu çalışmada önerilen sistemin, ağırlıklı sonludurum makinesi kelimelerin ekleri ve kökleri arasındaki ünlü uyumunu zorladığındakibaşarımı ölçülmüştür. Türkçe gibi eklemeli dillerdeki hata oranlarını kelime hata oranına göredaha iyi gösterebilecek ölçü birimleri de teklif edilmiştir. Yarı-kelimelerle elde edilen ikili dilmodeli, tam-kelimelerle elde edilen ikili dil modeline göre kelime hata oranları açısından dahaiyi sonuçlar vermiştir. Buna ek olarak üçlü-dil modelinin ünlü uyumunu sağlayan ağırlıklısonlu durum makinesi ile birleştirilmesi sonucunda elde edilen dil modeli, hata oranlarınıönemli ölçüde azaltmıştır.

Özet (Çeviri)

ABSTRACTIn large vocabulary continuous speech recognition (LVCSR) for agglutinative languages, weencounter problems due to theoretically infinite full-word lexicon size. Sub-word lexiconunits may be utilized to dramatically reduce the out-of-vocabulary rate in test data. One candevelop language models based on sub-word units to perform LVCSR. However, it has notalways been beneficial to use sub-word lexicon units, since shorter units have higher acousticconfusability among them and language model history is effectively shorter as compared tothe history in full-word language models. To reduce the aforementioned problems, wepropose using the longest possible sub-word units in our lexicon, namely half-words and full-words only. We also incorporate linguistic rules of half word combination into our statisticallanguage model. The language constraints are represented with a rule-based WFSM, whichcan be combined with an N-gram language model to yield a better and smaller languagemodel. We study the performance of the proposed system for Turkish LVCSR when thelanguage constraint takes the form of enforcing vowel harmony between stems and endings.We also introduce novel error-rate metrics that are more appropriate than word-error-rate foragglutinative languages. Using half-words with a bi-gram model yields a reduction in word-error-rate as compared to a bi-gram full-word model. In addition, combining a tri-gram half-word language model with the vowel-harmony WFSM significantly improves the accuracyfurther when re-scoring the bi-gram lattices.

Benzer Tezler

  1. Investigation of automatically derived subword units for turkish LVCSR

    Türkçe GDSKT için otomatik olarak elde edilmiş kelime altı modellerin incelenmesi

    TUNCAY AKSUNGURLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. MURAT SARAÇLAR

  2. Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

    EBRU ARISOY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAÇLAR

  3. Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish

    Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri

    HAŞİM SAK

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

    DOÇ. DR. TUNGA GÜNGÖR

  4. Türkçe dizi etiketleme için sinir ağ modelleri

    Neural models for Turkish sequence labeling

    YASİN EŞREF

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  5. Moves in discussions: A corpus-based genre analysis of the discussion sections in applied linguistics research articles written in English

    Tartışma bölümlerindeki işlevsel geçişler: Uygulamalı dilbilim alanında İngilizce yazılmış araştırma makalelerinin tartışma bölümlerinin derleme dayalı tür analizi

    EVRİM EVEYİK AYDIN

    Doktora

    İngilizce

    İngilizce

    2015

    DilbilimYeditepe Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ERKAN KARABACAK