Statistical modeling of agglutinative languages

Sondan eklemeli dillerin istatistiksel modellenmesi

Tez No: 96195
Yazar: DİLEK ZEYNEP HAKKANİ TÜR
Danışmanlar: DOÇ. KEMAL OFLAZER
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Doğal Dil İşleme, İstatistiksel Dil Modelleme, Biçimbirimsel Tekleştirme, Konuşma Tanıma, Yazım Hatalarının Düzeltilmesi, n-birimli Dil Modelleri, Maksimum Düzensizlik Modelleri
Yıl: 2000
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 122

Özet

ÖZET SONDAN EKLEMELİ DİLLERİN İSTATİSTİKSEL MODELLENMESİ Dilek Z. Hakkani-Tür Bilgisayar Mühendisliği, Doktora Tez Yöneticisi: Doç. Dr. Kemal Oflazer Ağustos, 2000 Bilgisayar donanımmdaki yeni gelişmeler ve çok büyük derlemlerin varlığı is tatistiksel tekniklerin doğal dil işlemeye uygulanmasını mümkün ve çok çekici bir araştırma alanı yapmıştır. Bu tekniklerin ingilizce ve benzeri dillerde cümle çözümleme (parsing), kelime anlamı tekleştirme (word sense disambiguation), sözcük sınıfı işaretleme (POS tagging) ve konuşma tanımaya uygulanmasıyla oldukça iyi sonuçlar elde edilmiştir. Ancak, Türkçe gibi, ingilizce ve benzeri diller den bir takım farklı özellikleri olan diller genellikle bu açıdan incelenmemişlerdir. Türkçe'nin istatistiksel modellenmesi ilginç bir problemdir. Verilen bir kökten az sayıda kelime üretilebilen ingilizce ve benzeri dillerin aksine Türkçe ve Fince gibi üretken eklemeli biçimbirimi olan dillerde, verilen bir kökten binlerce, hatta milyonlarca, yeni kelime üretmek mümkündür. Bu dil modelleme açısından çok ciddi bir veri yetersizliği problemine sebep olur. Bu doktora tezinde, Türkçe için istatistiksel dil modelleme tekniklerinin geliştirilmesi ve uygulanması ve bu tekniklerin biçimbirimsel tekleştirme, yazım hatalarının düzeltilmesi ve konuşma tanıma için aday (n-best) listesini yeniden değerlendirme gibi temel doğal dil ve konuşma işleme uygulamalarında denenmesi anlatılmaktadır. Bütün bu uygulamalarda veri yetersizliği probleminin etkisini azaltmak için kelimeden daha küçük birimler kullanıldı Biçimbirimsel tekleştirme için, çekim eki grupları (inflectional groups) modelleme birimi olarak kullanılarak n-birimli dil modelleri (n-gram language models) ve maksimum düzensizlik (max imum entropy) modelleri geliştirildi. Aldığımız sonuçlar, karmaşık biçimbirimsel yapıya sahip dilleri modellemek için sözcükten daha küçük birimler kullanmanın gerçekten de çok faydalı olduğunu gösterdi ve n-birimli dil modelleme yöntemi, maksimum düzensizlik yönteminden daha iyi sonuçlar verdi. Aday listesini yeniden değerlendirmek ve yazım hatalarının düzeltilmesi içinse biçimbirimsel tekleştirme için geliştirilen bu modeller ve bunların önek-sonek (prefix-suffix) vivıı modelleri gibi yakınsamaları kullandıldı. Önek-sonek modelleri, aday listesinin yeniden değerlendirilmesinde çok iyi sonuçlar verdi, ancak yazım hatalarının düzeltilmesinde doğruluk açısından sözcük tabanlı modellerden daha iyi sonuç vermedi.

Özet (Çeviri)

ABSTRACT STATISTICAL MODELING OF AGGLUTINATIVE LANGUAGES Dilek Z. Hakkani-Tür Ph.D. in Computer Engineering Supervisor: Assoc. Prof. Kemal Oflazer August, 2000 Recent advances in computer hardware and availability of very large corpora have made the application of statistical techniques to natural language process ing a possible, and a very appealing research area. Many good results have been obtained by applying these techniques to English (and similar languages) in pars ing, word sense disambiguation, part-of-speech tagging, and speech recognition. However, languages like Turkish, which have a number of characteristics that dif fer from English have mainly been left unstudied. Turkish presents an interesting problem for statistical modeling. In contrast to languages like English, for which there is a very small number of possible word forms with a given root word, for languages like Turkish or Finnish with very productive agglutinative morphology, it is possible to produce thousands of forms for a given root word. This causes a serious data sparseness problem for language modeling. This Ph.D. thesis presents the results of research and development of statisti cal language modeling techniques for Turkish, and tests such techniques on basic applications of natural language and speech processing like morphological dis ambiguation, spelling correction, and n-best list rescoring for speech recognition. For all tasks, the use of units smaller than a word for language modeling were tested in order to reduce the impact of data sparsity problem. For morphological disambiguation, we examined n-gram language models and maximum entropy models using inflectional groups as modeling units. Our results indicate that using smaller units is useful for modeling languages with complex morphology and n-gram language models perform better than maximum entropy models. For n-best list rescoring and spelling correction, the n-gram language models that were developed for morphological disambiguation, and their approximations, via prefix-suffix models were used. The prefix-suffix models performed very well for n-best list rescoring, but for spelling correction, they could not beat word-based iv

Benzer Tezler

Tez No
112589
Prefix suffix based statistical language models of Turkish
Türkçe'nin önek-sonek tabanlı istatistiksel modelleri
UMUT TOPKARA
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
Tez No
255903
Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Türkçe geniş dağarcıklı konuşma tanıma için istatistiksel ve ayırıcı dil modellemesi
EBRU ARISOY
Doktora
İngilizce
2009
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAÇLAR
Tez No
651275
Türkçe için sahte haber tespit modelinin oluşturulması
A fake news detection model for Turkish language
UĞUR MERTOĞLU
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURKAY GENÇ
PROF. DR. HAYRİ SEVER
Tez No
301660
Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish
Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri
HAŞİM SAK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
DOÇ. DR. TUNGA GÜNGÖR
Tez No
389367
Kısa metinlerde varlık ismi tanıma
Named entity recognition on Turkish short texts
BEYZA EKEN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

Geri Dön