Prefix suffix based statistical language models of Turkish

Türkçe'nin önek-sonek tabanlı istatistiksel modelleri

Tez No: 112589
Yazar: UMUT TOPKARA
Danışmanlar: YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: istatistiksel Dil Modelleme, Doğal Dil İşleme, Sondan Ek lemeli Diller, Konuşma Tanıma, Aday Listesi Değerlendirme, n-birimli Dil Mod elleri, Önek Sonek Dil Modelleri, Statistical Language Modeling, Natural Language Processing, Agglu tinative Languages, Speech Recognition, N-best List Rescoring, n-gram Language Models, Prefix Suffix Language Models
Yıl: 2001
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 79

Özet

ÖZET TÜRKÇE'NİN ÖNEK-SONEK TABANLI İSTATİSTİKSEL MODELLERİ Umut Topkara Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Yard. Doç. Dr. İlyas Çiçekli Temmuz, 2001 Teknolojik gelişmelerle beraber büyük derlemlerin ortaya çıkmasından sonra dil hakkındaki nicel bilgilerin özlü bir halde saklanması ve bu bilgi üzerinde çıkarımlar yapılması çekici bir bilimsel araştırma alanı haline geldi, istatistik sel dil modelleri u dil birimlerinden oluşan büyük derlemleri ürettiği varsayılan ve bilinmeyen bir P(u) olasılık dağılımını tahmin etmekte kullanılırlar. Bulu nan bu olasılık dağılımı tahmini, aralarında konuşma tanıma(speech recogni tion), yazım ve gramer hatalarını düzeltme, otomatik belge tercümesi ve otomatik belge sınıflandırmanın da bulunduğu birçok doğal dil işleme uygulamasının başarımını artırmak için kullanılabilir, istatistiksel dil modelleme, İngilizce'ye başarıyla uygulanmıştır, ancak istatistiksel modellerin bu başarısı Türkçe'nin is tatistiksel modellerine Türkçe'nin belirli özelliklerinden dolayı yeterince yansıma maktadır. Türkçe üretken sondan eklemeli bir dil yapısına sahiptir, yani bir ke lime kökünden arka arkaya eklemeler yoluyla binlerce kelime üretmek mümkün olmaktadır. Kelime birimleri üzerinden istatistiksel modeller kullanıldığında Türkçe'nin üretken sözlük yapısı genel olarak veri yetersizliğine ve konuşma tanıma gibi zaman-yer kritik uygulamalarda ciddi yer ve zaman problemleri oluşturmaktadır. Yakın zamanda tamamlanan Hakkani-Tür'e ait doktora tezindeki bulgu lara göre, Türkçe için konuşma tanıma uygulamalarının ürettiği aday lis telerinin yeniden değerlendirilmesinde, kelimelerin sabit büyüklükteki önek ve sonek birimleri üzerinden yapılan n-birimli istatiksel modeller kelime birimleri üzerinden yapılan n-birimli modellere göre daha iyi başarı sağlamaktadırlar. Bu başarılı sonuçlardan sonra, kelimeden küçük birimler üzerinden Türkçe'nin istatis tiksel modelleri konusunda daha fazla araştırma yaptık. Çalışmalarımızda önekVI ve sonek kısımları için sabit sayıda hece kullanılan çeşitli istatistiksel modeller denedik. Yaklaşımlarımızın güçlülüğünü değerlendirebilmek için önek ve sonek dağarcığımızı kısıtlı tuttuk. Ayrıca 2 kelime birimi bağlandı önek sonek modellerimizin başarımını kelime birimleri üzerinde 2-birimli istatistiksel modellerle karşılaştırdık. Araştırmalarımızın sonunda 2 kelime bağlamda kelime tabanlı dil modeliyle aynı perfor mansı gösteren, ancak yarı boyutta olan bir dil modeli geliştirdik.

Özet (Çeviri)

ABSTRACT PREFIX-SUFFIX BASED STATISTICAL LANGUAGE MODELS OF TURKISH Umut Topkara M.S. in Computer Engineering Supervisor: Asst. Prof. Dr. Ilyas Çiçekli July, 2001 As large amount of online text became available, concisely representing quan titative information about language and doing inference on this information for natural language applications have become an attractive research area. Statisti cal language models try to estimate the unknown probability distribution P(u) that is assumed to have produced large text corpora of linguistic units u. This probability distribution estimate is used to improve the performance of many natural language processing applications including speech recognition (ASR), op tical character recognition (OCR), spelling and grammar correction, machine translation and document classification. Statistical language modeling has been successfully applied to English. However, this good performance of approaches to statistical modeling of English does not apply to Turkish. Turkish has a produc tive agglutinative morphology, that is, it's possible to derive thousands of word forms from a given root word through adding suffixes. When statistical modeling by word units is used, this lucrative vocabulary structure causes data sparseness problems in general and serious space problems in time-memory critical applica tions such as speech recognition. According to a recent Ph.D. thesis by Hakkani-Tür, using fixed size prefix and suffix parts of words for statistical modeling of Turkish performs better than using whole words for the task of selecting the most likely sequence of words from a list of candidate words emitted by a speech recognizer. After these successful results, we have made further research on using smaller units for statistical modeling of Turkish. We have used fixed number of syllables for prefix and suffix parts. In our experiments we have used small vocabulary of prefixes and suffixes to test the robustness of our approach. We also compared the performance of prefix-suffix language models having 2-word context with word 2-gram models. We have found a language model that uses subword units and can perform as well as a large word iiiIV based language model in 2-word context and still be half in size.

Benzer Tezler

Tez No
96195
Statistical modeling of agglutinative languages
Sondan eklemeli dillerin istatistiksel modellenmesi
DİLEK ZEYNEP HAKKANİ TÜR
Doktora
İngilizce
2000
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. KEMAL OFLAZER
Tez No
758163
Early morpho-orthographic decomposition in Persian simple verbs
Farsça basit fiillerde erken morfo-ortografik ayrıştırma
AREF ALAMDAR MILANI
Yüksek Lisans
İngilizce
2022
Dilbilim Boğaziçi Üniversitesi
Dilbilim Ana Bilim Dalı
YRD. DOÇ. DR. PAVEL LOGACEV
Tez No
368596
The dialect of Pazar Laz and its case system
Pazar Lazca'sı ve bu lehçede adların durum ekleri
TANJU GÜRPINAR
Yüksek Lisans
İngilizce
2000
Dilbilim Boğaziçi Üniversitesi
Dilbilim Ana Bilim Dalı
PROF. DR. ESER E. TAYLAN
Tez No
827838
Bizans maden eserlerinde anikonik tasvirler: Amasya Müzesi'nden örnekler
Aniconic descriptions in byzantine mineral artworks: Examples from Amasya Museum
AYŞE NUR YÜCETAŞ
Yüksek Lisans
Türkçe
2023
Sanat Tarihi Sivas Cumhuriyet Üniversitesi
Sanat Tarihi Ana Bilim Dalı
DOÇ. DR. MERYEM ACARA ESER
Tez No
877104
Harita tabanlı kitle kaynak kullanımı yöntemiyle dijital kentsel bellek aktarım modeli e[kent-im]: Kütahya kent merkezi örneği
Digital urban memory transmission model using map-based crowdsourcing method e[kent-im]: The case of Kütahya city center
HATİCE KÜBRA SARAOĞLU YUMNİ
Yüksek Lisans
Türkçe
2024
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. DERYA GÜLEÇ ÖZER

Geri Dön