Geri Dön

Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

  1. Tez No: 255903
  2. Yazar: EBRU ARISOY
  3. Danışmanlar: YRD. DOÇ. DR. MURAT SARAÇLAR
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 179

Özet

Sondan eklemeli ve zengin biçimbilimsel yapıya sahip olan Türkçe, Geniş Dağarcıklı Sürekli Konuşma Tanıma (GDSKT) için zor bir dildir.Türkçe'nin sondan eklemeli yapısı yüzünden çok fazla sayıda dağarcık dışı kelime bulunmakta ve bu kelimelerin varlığı konuşma tanıma başarımlarını düşürmektedir.Türkçe'nin göreceli serbest kelime dizilimine sahip olması gürbüz olmayan dil modeli kestirimlerine sebep olmaktadır.Bu zorluklar, kelime-altı birimler olarak adlandırılan, anlamlı kelime parçacıklarının dil modellemesinde kullanılmasıyla büyük ölçüde aşılmıştır.Fakat, kelime-altı birimlerin bir kusuru Türkçe'de bulunmayan kelimeleri fazladan üretmesidir.Daha yüksek başarımlar için bu sorunun da çözülmesi gerekmektedir.Bu tez Türkçe'nin GDSKT sistemlerindeki zorluklarını çözmeyi hedeflemektedir.Dil modellemesi için dilbilimsel ve istatistiksel kelime-altı birimler araştırılmış ve bu birimler kelime dil modelleri üzerinden anlamlı başarım artışı sağlamıştır.Dinamik dağarcık uyarlamasından esinlenerek önerdiğimiz yeni yaklaşımımız kelime-altı birimlerdeki fazladan üretilen kelime hatalarını büyük ölçüde düzeltmiş ve kelime-altı birimlerin başarımını daha da arttırmıştır.Ayrıca Ayırıcı Dil Modelleri (ADM) dilbilimsel ve istatistiksel özniteliklerle birlikte kullanılmıştır.Hem ayırıcı eğitim ile daha iyi parametre kestirimleri sağlaması, hem de Türkçe'nin dil özelliklerini dil modellemesine katması sayesinde ADM geleneksel yöntemlerden daha iyi başarımlar göstermiştir.Bu tezin önemi birçok kelime-altı birimi aynı GDSKT sisteminde karşılaştıran bir çalışma olmasında, kelime-altı birimlerdeki fazladan kelime üretme hatalarını düzeltmeye çalışmasında ve Türkçe dil modelleme yaklaşımlarına ADM'ni eklemesinde yatmaktadır.Önerilen yöntemler benzer sorunları yaşayan diğer zengin biçimbilimsel yapıya sahip dillere kolaylıkla genişletilebilir.

Özet (Çeviri)

Turkish, being an agglutinative language with rich morphology, presents challenges for Large Vocabulary Continuous Speech Recognition (LVCSR) systems.First, the agglutinative nature of Turkish leads to a high number of Out-of-Vocabulary (OOV) words which in turn lower Automatic Speech Recognition (ASR) accuracy.Second, Turkish has a relatively free word order that leads to non-robust language model estimates.These challenges have been mostly handled by using meaningful segmentations of words, called sub-lexical units, in language modeling.However, a shortcoming of sub-lexical units is over-generation which needs to be dealt with for higher accuracies.This dissertation aims to address the challenges of Turkish in LVCSR.Grammatical and statistical sub-lexical units for language modeling are investigated and they yield substantial improvements over the word language models.Our novel approach inspired by dynamic vocabulary adaptation mostly recovers the errors caused by over-generation and further improves the accuracy of sub-lexical units.Additionally, discriminative language models (DLMs) with linguistically and statistically motivated features are utilized.DLM outperforms the conventional approaches, partly due to the improved parameter estimates with discriminative training and partly due to integrating the complex language characteristics of Turkish into language modeling.The significance of this dissertation lies in being a comparative study of several sub-lexical units on the same LVCSR system, addressing the over-generation problem of sub-lexical units and extending sub-lexical-based generative language modeling of Turkish to discriminative language modeling.These approaches can be easily extended to other morphologically rich languages that suffer from similarproblems.

Benzer Tezler

  1. Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish

    Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri

    HAŞİM SAK

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

    DOÇ. DR. TUNGA GÜNGÖR

  2. Sınav stresi ölçeğinin uyarlanması ve ölçme değişmezliğinin incelenmesi

    Examination of the adaptation of the examination stress scale-and the measurement invariance

    BÜŞRA KARADUMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Eğitim ve ÖğretimAbant İzzet Baysal Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. SEVİLAY KİLMEN

  3. Yazılı anlatım becerisi puanlama anahtarının güvenirliğinin klasik test, genellenebilirlik ve madde tepki kuramlarına göre incelenmesi

    An examination of the reliability estimates of a scroring rubric of a writing skill examination using the classical test theory, generalizability theory and the item response theory models

    MERVE YILDIRIM SEHERYELİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. ŞEREF TAN

  4. Çocuk gelişimini değerlendirme ölçeğinin (CDAS) türkçeye uyarlanması ve 5 yaş çocukların gelişiminin değerlendirilmesinin çeşitli değişkenler açısından incelenmesi

    Adapting scale of child development assessment to turkish language and examining developmental assessment of 5 years old children based on different variables

    ZEYNEP APAYDIN DEMİRCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimNecmettin Erbakan Üniversitesi

    İlköğretim Ana Bilim Dalı

    DOÇ. DR. EMEL ARSLAN

  5. An Investigation of the construct validity of standardized multiple-choice reading tests - a case study

    Çoktan seçmeli standart okuma testlerinin geçerliliğinin araştırılması - örnek vaka çalışması

    NAZLI HALENUR ŞEN DAŞIYICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Eğitim ve ÖğretimGaziantep Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. BERRİN UÇKUN