Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

PDF İndir

Tez No: 255903
Yazar: EBRU ARISOY
Danışmanlar: YRD. DOÇ. DR. MURAT SARAÇLAR
Tez Türü: Doktora
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 179

Özet

Sondan eklemeli ve zengin biçimbilimsel yapıya sahip olan Türkçe, Geniş Dağarcıklı Sürekli Konuşma Tanıma (GDSKT) için zor bir dildir.Türkçe'nin sondan eklemeli yapısı yüzünden çok fazla sayıda dağarcık dışı kelime bulunmakta ve bu kelimelerin varlığı konuşma tanıma başarımlarını düşürmektedir.Türkçe'nin göreceli serbest kelime dizilimine sahip olması gürbüz olmayan dil modeli kestirimlerine sebep olmaktadır.Bu zorluklar, kelime-altı birimler olarak adlandırılan, anlamlı kelime parçacıklarının dil modellemesinde kullanılmasıyla büyük ölçüde aşılmıştır.Fakat, kelime-altı birimlerin bir kusuru Türkçe'de bulunmayan kelimeleri fazladan üretmesidir.Daha yüksek başarımlar için bu sorunun da çözülmesi gerekmektedir.Bu tez Türkçe'nin GDSKT sistemlerindeki zorluklarını çözmeyi hedeflemektedir.Dil modellemesi için dilbilimsel ve istatistiksel kelime-altı birimler araştırılmış ve bu birimler kelime dil modelleri üzerinden anlamlı başarım artışı sağlamıştır.Dinamik dağarcık uyarlamasından esinlenerek önerdiğimiz yeni yaklaşımımız kelime-altı birimlerdeki fazladan üretilen kelime hatalarını büyük ölçüde düzeltmiş ve kelime-altı birimlerin başarımını daha da arttırmıştır.Ayrıca Ayırıcı Dil Modelleri (ADM) dilbilimsel ve istatistiksel özniteliklerle birlikte kullanılmıştır.Hem ayırıcı eğitim ile daha iyi parametre kestirimleri sağlaması, hem de Türkçe'nin dil özelliklerini dil modellemesine katması sayesinde ADM geleneksel yöntemlerden daha iyi başarımlar göstermiştir.Bu tezin önemi birçok kelime-altı birimi aynı GDSKT sisteminde karşılaştıran bir çalışma olmasında, kelime-altı birimlerdeki fazladan kelime üretme hatalarını düzeltmeye çalışmasında ve Türkçe dil modelleme yaklaşımlarına ADM'ni eklemesinde yatmaktadır.Önerilen yöntemler benzer sorunları yaşayan diğer zengin biçimbilimsel yapıya sahip dillere kolaylıkla genişletilebilir.

Özet (Çeviri)

Turkish, being an agglutinative language with rich morphology, presents challenges for Large Vocabulary Continuous Speech Recognition (LVCSR) systems.First, the agglutinative nature of Turkish leads to a high number of Out-of-Vocabulary (OOV) words which in turn lower Automatic Speech Recognition (ASR) accuracy.Second, Turkish has a relatively free word order that leads to non-robust language model estimates.These challenges have been mostly handled by using meaningful segmentations of words, called sub-lexical units, in language modeling.However, a shortcoming of sub-lexical units is over-generation which needs to be dealt with for higher accuracies.This dissertation aims to address the challenges of Turkish in LVCSR.Grammatical and statistical sub-lexical units for language modeling are investigated and they yield substantial improvements over the word language models.Our novel approach inspired by dynamic vocabulary adaptation mostly recovers the errors caused by over-generation and further improves the accuracy of sub-lexical units.Additionally, discriminative language models (DLMs) with linguistically and statistically motivated features are utilized.DLM outperforms the conventional approaches, partly due to the improved parameter estimates with discriminative training and partly due to integrating the complex language characteristics of Turkish into language modeling.The significance of this dissertation lies in being a comparative study of several sub-lexical units on the same LVCSR system, addressing the over-generation problem of sub-lexical units and extending sub-lexical-based generative language modeling of Turkish to discriminative language modeling.These approaches can be easily extended to other morphologically rich languages that suffer from similarproblems.

Benzer Tezler

Tez No
301660
Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
HAŞİM SAK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
DOÇ. DR. TUNGA GÜNGÖR
Tez No
463338
Sınav stresi ölçeğinin uyarlanması ve ölçme değişmezliğinin incelenmesi
Examination of the adaptation of the examination stress scale-and the measurement invariance
BÜŞRA KARADUMAN
Yüksek Lisans
Türkçe
2017
Eğitim ve Öğretim Abant İzzet Baysal Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. SEVİLAY KİLMEN
Tez No
526944
Yazılı anlatım becerisi puanlama anahtarının güvenirliğinin klasik test, genellenebilirlik ve madde tepki kuramlarına göre incelenmesi
An examination of the reliability estimates of a scroring rubric of a writing skill examination using the classical test theory, generalizability theory and the item response theory models
MERVE YILDIRIM SEHERYELİ
Yüksek Lisans
Türkçe
2018
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. ŞEREF TAN
Tez No
787272
Çocuk gelişimini değerlendirme ölçeğinin (CDAS) türkçeye uyarlanması ve 5 yaş çocukların gelişiminin değerlendirilmesinin çeşitli değişkenler açısından incelenmesi
Adapting scale of child development assessment to turkish language and examining developmental assessment of 5 years old children based on different variables
ZEYNEP APAYDIN DEMİRCİ
Yüksek Lisans
Türkçe
2018
Eğitim ve Öğretim Necmettin Erbakan Üniversitesi
İlköğretim Ana Bilim Dalı
DOÇ. DR. EMEL ARSLAN
Tez No
122187
An Investigation of the construct validity of standardized multiple-choice reading tests - a case study
Çoktan seçmeli standart okuma testlerinin geçerliliğinin araştırılması - örnek vaka çalışması
NAZLI HALENUR ŞEN DAŞIYICI
Yüksek Lisans
İngilizce
2002
Eğitim ve Öğretim Gaziantep Üniversitesi
İngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. BERRİN UÇKUN

Geri Dön