Geri Dön

Prefix suffix based statistical language models of Turkish

Türkçe'nin önek-sonek tabanlı istatistiksel modelleri

  1. Tez No: 112589
  2. Yazar: UMUT TOPKARA
  3. Danışmanlar: YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: istatistiksel Dil Modelleme, Doğal Dil İşleme, Sondan Ek lemeli Diller, Konuşma Tanıma, Aday Listesi Değerlendirme, n-birimli Dil Mod elleri, Önek Sonek Dil Modelleri, Statistical Language Modeling, Natural Language Processing, Agglu tinative Languages, Speech Recognition, N-best List Rescoring, n-gram Language Models, Prefix Suffix Language Models
  7. Yıl: 2001
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

ÖZET TÜRKÇE'NİN ÖNEK-SONEK TABANLI İSTATİSTİKSEL MODELLERİ Umut Topkara Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Yard. Doç. Dr. İlyas Çiçekli Temmuz, 2001 Teknolojik gelişmelerle beraber büyük derlemlerin ortaya çıkmasından sonra dil hakkındaki nicel bilgilerin özlü bir halde saklanması ve bu bilgi üzerinde çıkarımlar yapılması çekici bir bilimsel araştırma alanı haline geldi, istatistik sel dil modelleri u dil birimlerinden oluşan büyük derlemleri ürettiği varsayılan ve bilinmeyen bir P(u) olasılık dağılımını tahmin etmekte kullanılırlar. Bulu nan bu olasılık dağılımı tahmini, aralarında konuşma tanıma(speech recogni tion), yazım ve gramer hatalarını düzeltme, otomatik belge tercümesi ve otomatik belge sınıflandırmanın da bulunduğu birçok doğal dil işleme uygulamasının başarımını artırmak için kullanılabilir, istatistiksel dil modelleme, İngilizce'ye başarıyla uygulanmıştır, ancak istatistiksel modellerin bu başarısı Türkçe'nin is tatistiksel modellerine Türkçe'nin belirli özelliklerinden dolayı yeterince yansıma maktadır. Türkçe üretken sondan eklemeli bir dil yapısına sahiptir, yani bir ke lime kökünden arka arkaya eklemeler yoluyla binlerce kelime üretmek mümkün olmaktadır. Kelime birimleri üzerinden istatistiksel modeller kullanıldığında Türkçe'nin üretken sözlük yapısı genel olarak veri yetersizliğine ve konuşma tanıma gibi zaman-yer kritik uygulamalarda ciddi yer ve zaman problemleri oluşturmaktadır. Yakın zamanda tamamlanan Hakkani-Tür'e ait doktora tezindeki bulgu lara göre, Türkçe için konuşma tanıma uygulamalarının ürettiği aday lis telerinin yeniden değerlendirilmesinde, kelimelerin sabit büyüklükteki önek ve sonek birimleri üzerinden yapılan n-birimli istatiksel modeller kelime birimleri üzerinden yapılan n-birimli modellere göre daha iyi başarı sağlamaktadırlar. Bu başarılı sonuçlardan sonra, kelimeden küçük birimler üzerinden Türkçe'nin istatis tiksel modelleri konusunda daha fazla araştırma yaptık. Çalışmalarımızda önekVI ve sonek kısımları için sabit sayıda hece kullanılan çeşitli istatistiksel modeller denedik. Yaklaşımlarımızın güçlülüğünü değerlendirebilmek için önek ve sonek dağarcığımızı kısıtlı tuttuk. Ayrıca 2 kelime birimi bağlandı önek sonek modellerimizin başarımını kelime birimleri üzerinde 2-birimli istatistiksel modellerle karşılaştırdık. Araştırmalarımızın sonunda 2 kelime bağlamda kelime tabanlı dil modeliyle aynı perfor mansı gösteren, ancak yarı boyutta olan bir dil modeli geliştirdik.

Özet (Çeviri)

ABSTRACT PREFIX-SUFFIX BASED STATISTICAL LANGUAGE MODELS OF TURKISH Umut Topkara M.S. in Computer Engineering Supervisor: Asst. Prof. Dr. Ilyas Çiçekli July, 2001 As large amount of online text became available, concisely representing quan titative information about language and doing inference on this information for natural language applications have become an attractive research area. Statisti cal language models try to estimate the unknown probability distribution P(u) that is assumed to have produced large text corpora of linguistic units u. This probability distribution estimate is used to improve the performance of many natural language processing applications including speech recognition (ASR), op tical character recognition (OCR), spelling and grammar correction, machine translation and document classification. Statistical language modeling has been successfully applied to English. However, this good performance of approaches to statistical modeling of English does not apply to Turkish. Turkish has a produc tive agglutinative morphology, that is, it's possible to derive thousands of word forms from a given root word through adding suffixes. When statistical modeling by word units is used, this lucrative vocabulary structure causes data sparseness problems in general and serious space problems in time-memory critical applica tions such as speech recognition. According to a recent Ph.D. thesis by Hakkani-Tür, using fixed size prefix and suffix parts of words for statistical modeling of Turkish performs better than using whole words for the task of selecting the most likely sequence of words from a list of candidate words emitted by a speech recognizer. After these successful results, we have made further research on using smaller units for statistical modeling of Turkish. We have used fixed number of syllables for prefix and suffix parts. In our experiments we have used small vocabulary of prefixes and suffixes to test the robustness of our approach. We also compared the performance of prefix-suffix language models having 2-word context with word 2-gram models. We have found a language model that uses subword units and can perform as well as a large word iiiIV based language model in 2-word context and still be half in size.

Benzer Tezler

  1. Statistical modeling of agglutinative languages

    Sondan eklemeli dillerin istatistiksel modellenmesi

    DİLEK ZEYNEP HAKKANİ TÜR

    Doktora

    İngilizce

    İngilizce

    2000

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. KEMAL OFLAZER

  2. Early morpho-orthographic decomposition in Persian simple verbs

    Farsça basit fiillerde erken morfo-ortografik ayrıştırma

    AREF ALAMDAR MILANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    DilbilimBoğaziçi Üniversitesi

    Dilbilim Ana Bilim Dalı

    YRD. DOÇ. DR. PAVEL LOGACEV

  3. Harita tabanlı kitle kaynak kullanımı yöntemiyle dijital kentsel bellek aktarım modeli e[kent-im]: Kütahya kent merkezi örneği

    Digital urban memory transmission model using map-based crowdsourcing method e[kent-im]: The case of Kütahya city center

    HATİCE KÜBRA SARAOĞLU YUMNİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    DOÇ. DR. DERYA GÜLEÇ ÖZER

  4. Bizans maden eserlerinde anikonik tasvirler: Amasya Müzesi'nden örnekler

    Aniconic descriptions in byzantine mineral artworks: Examples from Amasya Museum

    AYŞE NUR YÜCETAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Sanat TarihiSivas Cumhuriyet Üniversitesi

    Sanat Tarihi Ana Bilim Dalı

    DOÇ. DR. MERYEM ACARA ESER

  5. The dialect of Pazar Laz and its case system

    Pazar Lazca'sı ve bu lehçede adların durum ekleri

    TANJU GÜRPINAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2000

    DilbilimBoğaziçi Üniversitesi

    Dilbilim Ana Bilim Dalı

    PROF. DR. ESER E. TAYLAN