Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
- Tez No: 301660
- Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, DOÇ. DR. TUNGA GÜNGÖR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
Göreceli olarak geniş bir dağarcığa sahip sondan eklemeli ya da çekimsel biçim-bilime sahip diller konuşma ve dil işlemede yüksek sayıda dağarcık dışı (DD) kelimenin görülmesine neden olduğundan bazı zorluklar sunmaktadır.Bu tezde, bu zorluklar ile otomatik konuşma tanıma (OKT) kapsamında çok üretken çekimli ve türevsel biçimbilime sahip olan Türkçe için ilgilenilmiştir.İlk olarak, Türkçe için gereken kaynakları ve araçları oluşturduk. Bunlar sonlu-durum biçimbilimsel çözümleyici, perceptron-tabanlı biçimbilimsel tekleştirici, ve metin derlemidir.İkinci olarak, DD kelime sorununu gidermek ve biçimbilimsel bilgiden kaynak olarak yararlanmak için birbirini tamamlayan iki dil modeli yaklaşımı geliştirilmiştir. İlk model, sıklıkla kullanılan kelime ve kelime-altı birimler yerine sözlüksel-dilbilgisel biçimbirimleri kullanan üretici n-birimli bir model olan biçim-sözlüksel dil modelidir. Ayrıca, sonlu durum dönüştürücü çerçevesinde biçimbilimi bir bilgi kaynağı olarak OKT sistemine bütünleştirmek için yeni bir yöntem sunulmuştur. İkinci model, üretici model ile elde edilen en iyi adayları tekrar sıralamak için biçim-sözlüksel ve biçim-dizimsel öznitelikleri kullanan kelime hata oranı (KHO) duyarlı algılayıcı bir algoritma ile ayırıcı olarak eğitilmiş doğrusal bir modeldir. Önerilen yöntemler haber kayıtlarının yazılandırılması için kullanıldı ve deneysel sonuçlar elde edildi. Biçim-sözlüksel model dağarcık dışı kelime sorununu nispeten gidermiş ve konuşma tanımada kelime hata oranını kelime ve istatistiki kelime-altı modellere göre sırasıyla %1.8 ve %0.8 oranında iyileştirmiştir. Ayırıcı olarak eğitilmiş model sistem başarımını %0.8 oranında daha da iyileştirmiştir. Son olarak, konuşma tanıma çıktısı olan kelime örgülerini tanıma yapılırken tekrar değerleyen bir algoritma geliştirilmiştir.
Özet (Çeviri)
Languages with agglutinative or inflectional morphology have proven to be challenging for speech and language processing due to relatively large vocabulary sizes leading to a high number of out-of-vocabulary (OOV) words.In this thesis, we tackle with these challenges in automatic speech recognition (ASR) for Turkish which has an extremely productive inflectional and derivational morphology. First, we build the necessary tools and resources for Turkish, namely a finite-state morphological parser, a perceptron-based morphological disambiguator, and a text corpus collected from the world wide web.Second, we introduce two complementary language modeling approaches to alleviate the OOV word problem and to exploit morphology as a knowledge source. The first, morpholexical language model, is a generative n-gram model, where modeling units are lexical-grammatical morphemes instead of commonly used words or statistical sub-words. The second is a linear reranking model trained discriminatively with a variant of the perceptron algorithm, word error rate (WER) sensitive perceptron, using morpholexical and morphosyntactic features to rerank n-best candidates obtained with the generative model. We apply the proposed models in Turkish broadcast news transcription task and give experimental results. We also propose a novel approach for integrating morphology into an ASR system in the finite-state transducer framework as a knowledge source. The morpholexical model is highly effective in alleviating the OOV problem and improves the WER over word and statistical sub-word models by 1.8% and 0.8% absolute, respectively. The discriminatively trained model further improves the WER of the system by 0.8% absolute. Finally, we present an algorithm for on-the-fly lattice rescoring with low-latency.
Benzer Tezler
- Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
- Dendritic spine shape analysis based on two-photon microscopy images
İki foton mikroskobik görüntüleri kullanarak dendritik diken şekil analizi
MUHAMMAD USMAN GHANI
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. MÜJDAT ÇETİN
- Kuersetin yüklü PCL bazlı farklı polimerik nanopartiküllerin üretimi, karakterizasyonu ve antioksidan aktivitelerinin karşılaştırılması
Production, characterization and comparison of antioxidant activities of quercetin-loaded PCL based different polymeric nanoparticles
SEVGİLAY KURTULDU
Yüksek Lisans
Türkçe
2023
BiyomühendislikYıldız Teknik ÜniversitesiBiyomühendislik Ana Bilim Dalı
PROF. DR. SERAP DERMAN
- Holografik mikroskopinin hücresel analiz ve veri güvenliği performansının iyileştirilmesi
Improvement of cellular analysis and data security performance of holographic microscopy
MUHAMMED ALİ PALA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA ZAHİD YILDIZ
- Lösemi tespiti için kan hücrelerinin derin öğrenme tabanlı sınıflandırılması
Deep learning-based classification of blood cells for detection of leukemia
ALI AHMED OMAR ALBELAZI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA KARHAN
DR. ÖĞR. ÜYESİ FEVZİ DAŞ