Statistical language models for large vocabulary Turkish speech recognition
Geniş dağarcıklı Türkçe konuşma tanıma için istatistiksel dil modelleri
- Tez No: 129397
- Danışmanlar: DOÇ. DR. LEVENT M. ARSLAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2002
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 104
Özet
VI ÖZET GENİŞ DAĞARCIKLI TÜRKÇE KONUŞMA TANIMA İÇİN İSTATİSTİKSEL DİL MODELLERİ Bu tezde, geniş dağarcıklı Türkçe konuşma tanıma için dört dil modeli karşılaştırılmıştır. Türkçe sondan eklemeli bir dildir ve morfolojik üretkenliği yüksektir. Türkçe'nin bu özelliği konuşma tanıma sistemleri tasarlarken, dağarcık patlamasına ve dilin istatistiklerinin yanlış kestirilmesine neden olmaktadır. Bu sorun, sözcükleri bölerek, dili küçük dağarcıklarla kapsama yetisine sahip daha kısa birimler elde ederek çözülebilir. Bu tezde sözcükleri temel birimlerine bölmek için üç yol anlatılmıştır: Biçimbirim tabanlı model, kök ve köksonrası tabanlı model ve hece tabanlı model. Bu modeller, kelime tabanlı modelle birlikte, dağarcık büyüklüklerine, metin kapsama oranlarına, ikili istatistiklerine ve konuşma tanıma performanslarına göre karşılaştırılmıştır. Web'den toplanmış çeşitli metinler kullanılarak 10 milyon kelime büyüklüğünde bir metin veri tabam oluşturulmuştur. Bu metinler biçimbirimlerine, kök ve köksonralarına ve hecelerine ayrıştırılmış ve bu temel birimlerin istatistikleri kestirilmiştir. Daha sonra bu temel birimler kullanılarak oluşturulan modellerle konuşma tanıma deneyleri gerçekleştirilmiştir.
Özet (Çeviri)
ABSTRACT STATISTICAL LANGUAGE MODELS FOR LARGE VOCABULARY TURKISH SPEECH RECOGNITION In this thesis we have compared four statistical language models for large vocabulary Turkish speech recognition. Turkish is an agglutinative language and has a productive morphotactics. This property of Turkish results in a vocabulary explosion and misestimation of N-gram probabilities while designing speech recognition systems. The solution is to parse the words, in order to get smaller base units that are capable of covering the language with relatively small vocabulary size. Three different ways of decomposing words into base units are described: Morpheme-based model, stem-ending-based model and syllable-based model. These models with the word-based model are compared with respect to vocabulary size, text coverage, bigram perplexity and speech recognition performance. We have constructed a Turkish text corpus of size 10 million words, containing various texts collected from the Web. These texts have been parsed into their morphemes, stems, endings and syllables and statistics of these base units are estimated. Finally we have performed speech recognition experiments with models constructed with these base units.
Benzer Tezler
- Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
- Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
HAŞİM SAK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
DOÇ. DR. TUNGA GÜNGÖR
- Prefix suffix based statistical language models of Turkish
Türkçe'nin önek-sonek tabanlı istatistiksel modelleri
UMUT TOPKARA
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
- Sub-word language modeling for Turkish speech recognition
Türkçe ses tanıma için sözcük altı dil modelleme
OSMAN BÜYÜK
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HAKAN ERDOĞAN
- A large vocabulary online handwriting recognition system for turkish
Türkçe için geniş dağarcıklı çevrimiçi el yazısı tanıma sistemi
ESMA FATIMA BİLGİN TAŞDEMİR
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT