Statistical language models for large vocabulary Turkish speech recognition

Geniş dağarcıklı Türkçe konuşma tanıma için istatistiksel dil modelleri

PDF İndir

Tez No: 129397
Yazar: HELİN DUTAĞACI
Danışmanlar: DOÇ. DR. LEVENT M. ARSLAN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2002
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 104

Özet

VI ÖZET GENİŞ DAĞARCIKLI TÜRKÇE KONUŞMA TANIMA İÇİN İSTATİSTİKSEL DİL MODELLERİ Bu tezde, geniş dağarcıklı Türkçe konuşma tanıma için dört dil modeli karşılaştırılmıştır. Türkçe sondan eklemeli bir dildir ve morfolojik üretkenliği yüksektir. Türkçe'nin bu özelliği konuşma tanıma sistemleri tasarlarken, dağarcık patlamasına ve dilin istatistiklerinin yanlış kestirilmesine neden olmaktadır. Bu sorun, sözcükleri bölerek, dili küçük dağarcıklarla kapsama yetisine sahip daha kısa birimler elde ederek çözülebilir. Bu tezde sözcükleri temel birimlerine bölmek için üç yol anlatılmıştır: Biçimbirim tabanlı model, kök ve köksonrası tabanlı model ve hece tabanlı model. Bu modeller, kelime tabanlı modelle birlikte, dağarcık büyüklüklerine, metin kapsama oranlarına, ikili istatistiklerine ve konuşma tanıma performanslarına göre karşılaştırılmıştır. Web'den toplanmış çeşitli metinler kullanılarak 10 milyon kelime büyüklüğünde bir metin veri tabam oluşturulmuştur. Bu metinler biçimbirimlerine, kök ve köksonralarına ve hecelerine ayrıştırılmış ve bu temel birimlerin istatistikleri kestirilmiştir. Daha sonra bu temel birimler kullanılarak oluşturulan modellerle konuşma tanıma deneyleri gerçekleştirilmiştir.

Özet (Çeviri)

ABSTRACT STATISTICAL LANGUAGE MODELS FOR LARGE VOCABULARY TURKISH SPEECH RECOGNITION In this thesis we have compared four statistical language models for large vocabulary Turkish speech recognition. Turkish is an agglutinative language and has a productive morphotactics. This property of Turkish results in a vocabulary explosion and misestimation of N-gram probabilities while designing speech recognition systems. The solution is to parse the words, in order to get smaller base units that are capable of covering the language with relatively small vocabulary size. Three different ways of decomposing words into base units are described: Morpheme-based model, stem-ending-based model and syllable-based model. These models with the word-based model are compared with respect to vocabulary size, text coverage, bigram perplexity and speech recognition performance. We have constructed a Turkish text corpus of size 10 million words, containing various texts collected from the Web. These texts have been parsed into their morphemes, stems, endings and syllables and statistics of these base units are estimated. Finally we have performed speech recognition experiments with models constructed with these base units.

Benzer Tezler

Tez No
255903
Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
Tez No
301660
Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
HAŞİM SAK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
DOÇ. DR. TUNGA GÜNGÖR
Tez No
112589
Prefix suffix based statistical language models of Turkish
Türkçe'nin önek-sonek tabanlı istatistiksel modelleri
UMUT TOPKARA
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
Tez No
197636
Sub-word language modeling for Turkish speech recognition
Türkçe ses tanıma için sözcük altı dil modelleme
OSMAN BÜYÜK
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik Mühendisliği Sabancı Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HAKAN ERDOĞAN
Tez No
501861
A large vocabulary online handwriting recognition system for turkish
Türkçe için geniş dağarcıklı çevrimiçi el yazısı tanıma sistemi
ESMA FATIMA BİLGİN TAŞDEMİR
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

Geri Dön