Geri Dön

Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish

Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri

  1. Tez No: 301660
  2. Yazar: HAŞİM SAK
  3. Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, DOÇ. DR. TUNGA GÜNGÖR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 142

Özet

Göreceli olarak geniş bir dağarcığa sahip sondan eklemeli ya da çekimsel biçim-bilime sahip diller konuşma ve dil işlemede yüksek sayıda dağarcık dışı (DD) kelimenin görülmesine neden olduğundan bazı zorluklar sunmaktadır.Bu tezde, bu zorluklar ile otomatik konuşma tanıma (OKT) kapsamında çok üretken çekimli ve türevsel biçimbilime sahip olan Türkçe için ilgilenilmiştir.İlk olarak, Türkçe için gereken kaynakları ve araçları oluşturduk. Bunlar sonlu-durum biçimbilimsel çözümleyici, perceptron-tabanlı biçimbilimsel tekleştirici, ve metin derlemidir.İkinci olarak, DD kelime sorununu gidermek ve biçimbilimsel bilgiden kaynak olarak yararlanmak için birbirini tamamlayan iki dil modeli yaklaşımı geliştirilmiştir. İlk model, sıklıkla kullanılan kelime ve kelime-altı birimler yerine sözlüksel-dilbilgisel biçimbirimleri kullanan üretici n-birimli bir model olan biçim-sözlüksel dil modelidir. Ayrıca, sonlu durum dönüştürücü çerçevesinde biçimbilimi bir bilgi kaynağı olarak OKT sistemine bütünleştirmek için yeni bir yöntem sunulmuştur. İkinci model, üretici model ile elde edilen en iyi adayları tekrar sıralamak için biçim-sözlüksel ve biçim-dizimsel öznitelikleri kullanan kelime hata oranı (KHO) duyarlı algılayıcı bir algoritma ile ayırıcı olarak eğitilmiş doğrusal bir modeldir. Önerilen yöntemler haber kayıtlarının yazılandırılması için kullanıldı ve deneysel sonuçlar elde edildi. Biçim-sözlüksel model dağarcık dışı kelime sorununu nispeten gidermiş ve konuşma tanımada kelime hata oranını kelime ve istatistiki kelime-altı modellere göre sırasıyla %1.8 ve %0.8 oranında iyileştirmiştir. Ayırıcı olarak eğitilmiş model sistem başarımını %0.8 oranında daha da iyileştirmiştir. Son olarak, konuşma tanıma çıktısı olan kelime örgülerini tanıma yapılırken tekrar değerleyen bir algoritma geliştirilmiştir.

Özet (Çeviri)

Languages with agglutinative or inflectional morphology have proven to be challenging for speech and language processing due to relatively large vocabulary sizes leading to a high number of out-of-vocabulary (OOV) words.In this thesis, we tackle with these challenges in automatic speech recognition (ASR) for Turkish which has an extremely productive inflectional and derivational morphology. First, we build the necessary tools and resources for Turkish, namely a finite-state morphological parser, a perceptron-based morphological disambiguator, and a text corpus collected from the world wide web.Second, we introduce two complementary language modeling approaches to alleviate the OOV word problem and to exploit morphology as a knowledge source. The first, morpholexical language model, is a generative n-gram model, where modeling units are lexical-grammatical morphemes instead of commonly used words or statistical sub-words. The second is a linear reranking model trained discriminatively with a variant of the perceptron algorithm, word error rate (WER) sensitive perceptron, using morpholexical and morphosyntactic features to rerank n-best candidates obtained with the generative model. We apply the proposed models in Turkish broadcast news transcription task and give experimental results. We also propose a novel approach for integrating morphology into an ASR system in the finite-state transducer framework as a knowledge source. The morpholexical model is highly effective in alleviating the OOV problem and improves the WER over word and statistical sub-word models by 1.8% and 0.8% absolute, respectively. The discriminatively trained model further improves the WER of the system by 0.8% absolute. Finally, we present an algorithm for on-the-fly lattice rescoring with low-latency.

Benzer Tezler

  1. Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition

    Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi

    EBRU ARISOY

    Doktora

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAÇLAR

  2. Dendritic spine shape analysis based on two-photon microscopy images

    İki foton mikroskobik görüntüleri kullanarak dendritik diken şekil analizi

    MUHAMMAD USMAN GHANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. MÜJDAT ÇETİN

  3. Kuersetin yüklü PCL bazlı farklı polimerik nanopartiküllerin üretimi, karakterizasyonu ve antioksidan aktivitelerinin karşılaştırılması

    Production, characterization and comparison of antioxidant activities of quercetin-loaded PCL based different polymeric nanoparticles

    SEVGİLAY KURTULDU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyomühendislikYıldız Teknik Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    PROF. DR. SERAP DERMAN

  4. Holografik mikroskopinin hücresel analiz ve veri güvenliği performansının iyileştirilmesi

    Improvement of cellular analysis and data security performance of holographic microscopy

    MUHAMMED ALİ PALA

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA ZAHİD YILDIZ

  5. Lösemi tespiti için kan hücrelerinin derin öğrenme tabanlı sınıflandırılması

    Deep learning-based classification of blood cells for detection of leukemia

    ALI AHMED OMAR ALBELAZI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA KARHAN

    DR. ÖĞR. ÜYESİ FEVZİ DAŞ