Geri Dön

Türkçe'nin biçimbilim yapısına dayalı bir metin sıkıştırma sistemi

A document compression system based on the morphology of the Turkish language

  1. Tez No: 84981
  2. Yazar: BANU DİRİ
  3. Danışmanlar: PROF. DR. M. YAHYA KARSLIGİL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1999
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 167

Özet

ÖZET Bu doktora çalışmasında veri sıkıştırma konusunda yapılan diğer çalışmalardan farklı olarak, Türkçe metinlerin biçimbilimsel (morfolojik) olarak incelenmesi yapılmış ve bu inceleme sonucunda elde edilen gövde-kök, hece ve eklere ait istatistiksel verilere göre, yeni bir veri sıkıştırma yöntemi geliştirilmiştir. Sistemin başarımı ve çalışması değişik Türkçe metinlere uygulanarak değerlendirilmiştir. Geliştirilen sistemin en önemli özelliği, var olan sıkıştırma yöntemlerinden farklı olarak, sıkıştırılacak veriyi ikili bilgi yapısında değil, Türkçe dilinin yapısına uygun şekilde hece, gövde-kök ve eklerine ayırarak değerlendirmesidir. Geliştirilen bu sıkıştırma yönteminde Huffman kodlama ağacı temel alınıp ilk olarak kelimenin heceleri, ikinci olarak kelimenin kök ve ekleri, son olarak da kelimenin alınabilen en uzun ilk hecesi ve ekleri için üç ayrı statik şablon oluşturulup, Türkçe bir metnin kayıpsız geri dönüşümü sağlanmıştır. Sıkıştırma verimindeki başarıyı daha da arttırmak amacıyla kelimenin gövde-kök ve ekleri için iki ayrı sözlük kullanarak dinamik Huffman kodlaması gerçekleştirilmiştir. Ayrıca kod çözme işleminde ihtiyaç duyulan Huffman ağaç yapısına ait bilginin, sıkıştırılan metnin önüne konan başlık (header) alanında tuttuğu yer, bu doktora çalışması kapsamında geliştirilen bir yöntem ile n elemanlı bir Huffman ağacının (2n-2) adet bit ile ifade edilmesi sağlanmış olup, sıkıştırma veriminde %1.5'luk bir artış elde edilmiştir. Veri sıkıştırma tekniklerinin test edilmesinde kullanılan Galgary Corpus ve Catenbury Corpus'a uygun olarak 1 4 adet Türkçe metinden oluşan bir test kümesi oluşturulmuş ve sistem başarımı bu test kümesi üzerinde incelenerek değerlendirilmiştir. Türkçe metinler üzerinde yapılan analiz sonucunda, Türkçe bir metin içerisinde geçen kelime kullanım sıklıklarının Zipf kanununa uyum gösterdiği de belirlenmiş ve kullanım sıklıklarına göre matematiksel bir model kurulmuştur. Anahtar kelimeler : Veri sıkıştırma, Huffman kodlaması, Zipf kanunu, Türkçe'nin biçimbilimsel analizi, Türkçe XII

Özet (Çeviri)

ABSTRACT In this thesis, a new approach for the compression of turkish documents is proposed. In contrast to common data-compression methods, this approach determines the frequency of root, stem,syllables and suffixes in a document through a morphological analysis and uses this output in the generation of dynamic Huffman codes. The evaluation of the proposed approach has been accomplished by implementing the system on several different turkish documents. The proposed approach distinguishes itself from common place algorithms by the fact that the document to the compressed is evaluated in accordance to the turkish language and rather than as plain binary data hence broken into its roots, stems, suffixes and syllables. Since text compression and decompression requires lossless operation, the proposed method expresses the roots, stems and suffices using Huffman trees to maximize the ratio of coded information to the number of required bits. The header part which carries information to be used during decompression has been optimized by the proposal of a new coding method to describe a Huffman tree which resulted in approximately %1.5 gain in overall compression performance. The proposed coding expresses a Huffman tree with (n) elements in (2n-2) bits and thus reduces the header size clearly. A corpus consisting of 14 turkish documents similar to Galgary Corpus and Catenbury Corpus has been formed and the systems overall performance has been evaluated on this corpus. Through analysis on turkish documents it has been observed that the frequency distribution of words in a turkish document conforms to the Zipf s law which helps the development of the implemented mathematical model. Keywords : Data compression, Huffman coding, Zipf law, The morphology of the Turkish Language, Turkish X11J

Benzer Tezler

  1. Sözdizim ve biçimbilim açısından Urartu dili

    The Morpho-syntax of Urartian language

    ERTAN KUŞÇU

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    DilbilimYüzüncü Yıl Üniversitesi

    Fransız Dili ve Edebiyatı Ana Bilim Dalı

    Y.DOÇ.DR. MUSTAFA SARICA

  2. Internet üzerinde visual basic ile Türkçe kelimelerin morfolojik analizi

    Turkish morphological analyser with visual basic on the internet

    FİGEN AKTAŞ

  3. A comparison of two dialects spoken in eastern Rhodope and standard Turkish

    Doğu Rodop'ta konuşulan iki lehçenin Türkiye Türkçesi ile karşılaştırılması

    CANAN TEKULUS

    Yüksek Lisans

    İngilizce

    İngilizce

    1996

    DilbilimBoğaziçi Üniversitesi

    PROF.DR. TAYLAN E. ESER

  4. Phonological and morphological aspects of lexicalized fingerspelling in Turkish sign language (TİD)

    Türk işaret dilinde harfli işaretlerin birimbilimsel ve biçimbilimsel özellikleri

    SÜLEYMAN SABRİ TAŞÇI

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    DilbilimBoğaziçi Üniversitesi

    Dilbilim Ana Bilim Dalı

    DOÇ. DR. ASLI GÖKSEL