Geri Dön

Applying and comparing smoothing techniques to contemporary printed Turkish

Güncel basılı Türkçe'ye düzeltme tekniklerinin uygulanması ve karşılaştırılması

  1. Tez No: 150849
  2. Yazar: GÖKHAN DALKILIÇ
  3. Danışmanlar: PROF. DR. YALÇIN ÇEBİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Corpus, word n-grams, smoothing, n-gram analysis algorithm, Turkish corpus, Turkish word n-grams
  7. Yıl: 2004
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 147

Özet

VI ÖZET Ses ve optik karakter tanıma, metin düzeltme, veri sıkıştırma, vs. için doğal bir dilin yapısal özelliklerinin belirlenmesi gereklidir. Bu özellikler, morfolojik ve istatistiksel analiz olmak üzere iki ayrı kategoride incelenebilir. İstatistiksel analiz için, doğal dili temsil eden örnek bir külliyata (corpus) ihtiyaç vardır. Bu külliyatın kelime n-gram frekansları, uygun algoritmalar kullanılarak saptanabilir ve eksik olan n-gramlar düzeltme (smoothing) teknikleriyle tahmin edilebilir. Bu çalışmada, düzeltme tekniklerini karşılaştırmak ve güncel Türkçeye uygulamak amacıyla, kelime n-gram frekanslarının araştınlabileceği TurCo isminde bir külliyat yaratılmıştır. Kelime n-gramlanmn hesaplanması için değişik algoritmalar geliştirilmiş ve denenmiştir. Monogram, digram, trigram, tetragram ve pentagram kelime listeleri bulunduktan sonra özellikleri incelenmiştir. Genelleme yapmak için Zipf Kanunu uygulanmış ve Zipf Kanunu'nun duyarlılığım arttırmak için uygun Mandelbrot sabitleri bulunmuştur. Külliyat, dilin tümünü temsil edecek kadar büyük olamayacağından, görülmeyen n-gramlarm tahmini için düzeltme teknikleri kullanılmalıdır. Düzeltme tekniklerinin incelenmesi ve karşılaştırılması sonucunda, Back-off yönteminin en uygun çözümü verebileceği öngörülmüştür. Bu yöntemin uygulanması ve sonuçların değerlendirilmesi için En Kısa Düzeltme Uzaklığı (Minimum Edit Distance) yöntemi de kullanılarak deneysel bir yazılım geliştirilmiş ve sonuçlar Microsoft Word XP ile karşılaştnılmıştır. Anahtar sözcükler : Külliyat, kelime n-gramlan, yumuşatma, n-gram analiz algoritması, Türkçe külliyat, Türkçe kelime n-gramlan

Özet (Çeviri)

V ABSTRACT For speech and optical character recognition, text correction, data encryption, etc. determination of the structural properties of a natural language is essential. These properties can be analyzed under two different categories; morphological and statistical analysis. For statistical analysis, a corpus which is a representative sample of the natural language is needed. Word n-gram frequencies of that corpus can be determined by using suitable algorithms and missing n-grams can be estimated by using smoothing techniques. In this study, in order to compare and apply smoothing techniques to contemporary Turkish, a corpus named TurCo from which word n-gram frequencies would be investigated, was created. In order to calculate word n-grams, different algorithms were developed and tested. After finding monogram, bigram, trigram, tetragram and pentagram word lists, their characteristics were analyzed. For generalization, Zipf s Law was applied, and to increase the accuracy in Zipf s Law, Mandelbrot Law was applied by finding the appropriate constants of Mandelbrot. As the corpus could not be big enough to represent all of the language, smoothing techniques were used to estimate the unseen word n-grams. After the investigation and comparison of smoothing techniques, it was assumed that Back-off technique would give the best result. To apply this technique and to evaluate the results, by using the Minimum Edit Distance method a prototype program was developed, and the results were compared with Microsoft Word XP.

Benzer Tezler

  1. İstatistik ve yapay zeka teknikleri ile enerji tüketiminin tahmini: Sakarya doğal gaz tüketiminin uygulaması

    Demand forecasting of energy consumption with statistical and artificial intelligent techniques: Sakarya natural gas consumption application

    MUSTAFA AKPINAR

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK

  2. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  3. Implementation and comparison of different methods for the estimation of aircraft take-off weight based on ADS-B data

    ADS-B verilerine dayalı uçak kalkış ağırlığı tahmini için farklı yöntemlerin uygulanması ve karşılaştırılması

    KÜBRA ÇOLAK BİRGÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. METİN ORHAN KAYA

  4. Yüz veritabanı uygulaması yapılandırması ve yüz özniteliklerinde öğrenme yöntemlerinin veritabanına uygulanması

    Face database application implementation and applying learning methods on face features to database

    GİZEM İREM KOZAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. TAYFUN AKGÜL

  5. Okul öncesi eğitim kurumlarında müzik eğitiminde kullanılan materyallerin okul öncesi öğretmenlerinin görüşlerine dayalı olarak değerlendirilmesi

    An evaluation of music educational materials for music education in pre - school institutions based on pre - school teachers' vi̇ews

    FATMA LEYLA HASESKİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Eğitim ve ÖğretimÇanakkale Onsekiz Mart Üniversitesi

    İlköğretim Ana Bilim Dalı

    YRD. DOÇ. DR. FEYZA SÖNMEZÖZ