Geri Dön

Hece tabanlı N-gram modeller ile yazım hatası bulma ve düzeltme

Spelling check and correction by using syllable n-gram models

  1. Tez No: 166785
  2. Yazar: ÖZLEM SEMA EROĞLU
  3. Danışmanlar: PROF.DR. EŞREF ADALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Doğal dil işleme, n-gram, hece, yazım hatası bulma, yazım hatası düzeltme ıx, Natural Language Processing, n-gram, syllable, spelling checking, spelling correction
  7. Yıl: 2005
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

ÖZET HECE TABANLI N-GRAM MODELLER İLE YAZIM HATASI BULMA VE DÜZELTME Bu çalışmada Türkçe için hece tabanlı n-gram bir model oluşturulmuş, bu modelin yazım hatası bulma ve düzeltme uygulamalarında kullanılırlığı araştırılmıştır. N- gram modeller doğal dil işleme uygulamalarında sıklıkla kullanılan istatistiksel bir yöntemdir. Sözcük tabanlı n-gram modeller daha önce çeşitli diller için oluşturulmuş ve farklı doğal dil işleme amaçlan için kullanılmıştır. Ancak Türkçe biçimbirimsel açıdan bitişken yapılı bir dildir; köklere ekler getirilerek sınırsız sayıda sözcük türetilebilir. Oysa istatistiksel yöntemler her bir farklı birimin eğitim kümesinde kaç kez geçtiğini saymaya dayanır. Sözcük tabanlı n-gram modellerin bu nedenle Türkçe için yeterli olmayışı hece tabanlı bir modelin çıkış noktası olmuştur. Bu çalışma kapsamında Türkçe'de olabilecek tüm heceler üretilmiş, n-gram model oluşturulurken ilgilenilecek farklı hece sayısının türetilebilecek farklı sözcük sayışma göre çok daha yönetilebilir düzeyde olduğu görülmüştür. Sadece harf sayısı kuralı konularak toplam 152,048 hece ve ses kuralları eklendiğinde yalnızca 6,160 farklı hece üretilmiştir. Bir kısım eğitim kümesi üzerinden istatistiksel bilgi toplayarak oluşturulan bigram ve trigram modeller, daha sonra test kümeleri üzerinde yazım hatalarının bulunması ve düzeltilmesi için denenmiş, sonuçlan tartışılmıştır. Geliştirilen hece tabanlı modelin başarımının ölçülmesi amacıyla aynı eğitim kümeleri kullanılarak harf tabanlı n-gram model de geliştirilmiş ve aynı test kümeleri üzerinde denenerek başarımları kıyaslanmaya çalışılmıştır. Harf tabanlı yöntemde farklı birim sayısı alfabedeki harf sayısıyla sınırlı olduğu için bu bakımdan hece tabanlı yönteme göre daha avantajlı gibi görünse de, bu çalışmada bigram ve trigram modellerde birim olarak heceleri kullanımının daha iyi sonuçlar verdiği gözlenmiştir. Bunun nedeni hecelerin art arda dizilme istatistiklerinin, sözcüklerin geneli ve ses kuralları hakkında daha çok bilgi sağlamasıdır. Bu tez kapsamında heceleme işlemi gerçekleştirildikten sonra n-gram modellerin oluşturulma aşaması için geliştirilmiş olan uygulama dilin özelliklerinden bağımsız olduğu için başka dillerde de kullanılabilecek şekilde genelleştirilebilir.

Özet (Çeviri)

SPELLING CHECK AND CORRECTION BY USING SYLLABLE BASED IN GRAM MODELS SUMMARY N-gram models are widely used in Natural Language Processing. But languages like Turkish, which are agglutinative in morphological structure, and hence have a huge vocabulary size, are not suitable for word-based n-gram models. In this study, syllable based n-gram models are examined for Turkish. In Turkish, the rules for segmenting words into syllables are very clear and the size of regular syllable vocabulary is considerably low to be compared with word vocabulary size. As the statistical methods are based on counting, this low vocabulary size enables syllables to be favourable for use in n-gram models. With only the rules of vowel and consonant counts of a syllable, 152,048 possible syllables are generated syntactically. Adding the phonological rules resulted 6,160 syllable types for Turkish. To compare the performance of letter based and syllable based n-grams, letter based bigram and trigram models are also taken into the scope of.this work. Syllable based bigram and trigram models are developed and tested for spelling checking and correction in Turkish text. Developing the n-gram models are based on counting the distinct syllables and the consecution of syllables in a training corpus according to the degree of the model. Once the model is constructed it can be used by various Natural Language Processing applications. Here, we use the model mainly for spelling checking and correction, and also we concisely show the ability of the model for word generation in Turkish.

Benzer Tezler

  1. Prefix suffix based statistical language models of Turkish

    Türkçe'nin önek-sonek tabanlı istatistiksel modelleri

    UMUT TOPKARA

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İLYAS ÇİÇEKLİ

  2. Design and implementation of Turkish speech recognition engine

    Türkçe konuşma tanıma sisteminin tasarımı ve gerçekleştirilimi

    RIFAT AŞLIYAN

    Doktora

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. TATYANA YAKHNO

  3. Statistical language models for large vocabulary Turkish speech recognition

    Geniş dağarcıklı Türkçe konuşma tanıma için istatistiksel dil modelleri

    HELİN DUTAĞACI

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LEVENT M. ARSLAN

  4. Türkçe dokümanların sınıflandırılması

    Classification of Turkish documents

    RUMEYSA YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    MatematikAdnan Menderes Üniversitesi

    Matematik Ana Bilim Dalı

    YRD. DOÇ. DR. RIFAT AŞLIYAN

  5. Bir hece-tabanlı Türkçe sesli ifade tanıma sisteminin tasarımı ve gerçekleştirimi

    A syllable-based speech recognition system design and implementation for Turkish language

    BURCU CAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. HARUN ARTUNER