Geri Dön

Günümüz yazılı Türkçesinin istatistiksel özellikleri ve bir metin sıkıştırma uygulaması

Statistical properties of contemporary printed Turkish and a text compression application

  1. Tez No: 114054
  2. Yazar: GÖKHAN DALKILIÇ
  3. Danışmanlar: DOÇ. DR. MEHMET EMİN DALKILIÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Türkçe'nin entropisi, sembol sıralama algoritması, metin sıkıştırma metodu, Türkçe harf dağılımları, Entropy of Turkish, symbol ranking algorithm, text compression method, Turkish letter frequencies
  7. Yıl: 2001
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 111

Özet

ÖZET GÜNÜMÜZ YAZILI TÜRKÇESİNİN İSTATİSTİKSEL ÖZELLİKLERİ VE BİR METİN SIKIŞTIRMA UYGULAMASI DALKILIÇ, Gökhan Yüksek Lisans Tezi, Uluslararası Bilgisayar Enstitüsü Tez Yöneticisi: Doç. Dr. Mehmet Emin DALKILIÇ Şubat 2001, 97 sayfa Bu tez çalışmasının amacı, İngilizce için elde edilmiş dil ile ilgili bazı istatistiki değerlerin Türkçe için de elde edilmesidir. Bu amaç kapsamında Shannon ve Cover tarafından geliştirilen entropi testleri deneklere uygulanarak Türkçe'nin entropi ve fazlalık değerleri hesaplanmıştır. Türkçe metinler üzerinde yapılan çalışmalarla, günümüz yazılı Türkçesinin monogram (1-gram), digram (2-gram), trigram (3-gram), tetragram (4-gram) ve pentagram (5-gram) harf sıklık değerleri elde edilmiştir. Bu değerlerden monogram ve pentagramlar bir sembol sıralama algoritması içinde kullanılarak Türkçe metinleri sıkıştırmak amacıyla kullanılabilecek bir metin sıkıştırma uygulaması geliştirilmiştir. Elde ettiğimiz sonuçlar Türkçe'nin entropi değerinin yaklaşık 1,47 bit/sembol ve fazlalık değerinin %70 olduğunu göstermektedir. Bu veriler Türkçe bir metnin geliştirilebilecek uygun bir sıkıştırma algoritması ile %70 oranında sıkıştınlabileceğini göstermektedir.

Özet (Çeviri)

vn ABSTRACT STATISTICAL PROPERTIES OF CONTEMPORARY PRINTED TURKISH AND A TEXT COMPRESSION APPLICATION DALKILIÇ, Gökhan MSc in Computer Science Supervisor: Assoc. Prof. Dr. Mehmet Emin DALKILIÇ February 2001, 97 pages The goal of this thesis study is to obtain some statistical values related to Turkish language that were obtained for English before. To reach this goal, the entropy and redundancy values of Turkish are calculated by applying the entropy tests, developed by Shannon and Cover, to the subjects. Through the work carried out on Turkish texts, the monogram (1- gram), digram (2-gram), trigram (3-gram), tetragram (4-gram), and pentagram (5-gram) letter frequency values for contemporary printed Turkish are obtained. By using the pentagram and monogram values with a symbol ranking algorithm, a text compression application is developed to compress Turkish text. Our results show that the entropy value of Turkish is approximately 1.47 bits/character, and the redundancy value is over 70%. These values show that a Turkish text can be compressed by 70% with a properly developed compression algorithm.

Benzer Tezler

  1. Cedit Hareketi sürecinde Özbek yazı dili

    Uzbek written language in the process of the Jadid Movement

    MUSTAFA GÜLER

    Doktora

    Türkçe

    Türkçe

    2022

    DilbilimSivas Cumhuriyet Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. BİLÂL YÜCEL

  2. 19. yüzyılda Arnavutluk'ta kullanılmış Türkçe üzerine bir dil incelemesi: Güney Arnavutluk'ta kaleme alınmış yunan harfli Türkçe Bektaşi cönkleri

    A linguistic study on the Turkish used in Albania in the 19th century: the Bektashi cönks in Turkish with Greek script written in Southern Albania

    FATOS DIBRA

    Doktora

    Türkçe

    Türkçe

    2021

    Dilbilimİstanbul Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. HATİCE TÖREN

  3. Ulug'bek Hamdam'ın 'Künglimdӓgi Dӓryå', 'Sӓfӓr', 'Qaytiş', 'Binӓfşӓ' ve 'Yöl (Fӓlsӓfiy Råmӓn)' adlı eserleri üzerine dil incelemesi (metin-inceleme)

    A language analysis of Ulug'bek Hamdam's works titled 'Künglimdӓgi Dӓryå', 'Sӓfӓr', 'Qaytiş', 'Binӓfşӓ' and 'Yöl (Fӓlsӓfiy Råmӓn)' (text-review)

    HÜSEYİN CAN ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    DilbilimMuğla Sıtkı Koçman Üniversitesi

    Çağdaş Türk Lehçeleri ve Edebiyatları Ana Bilim Dalı

    DOÇ. DR. EKREM AYAN

  4. VIII.-XIII. yüzyıl metinlerinde Türkçe dinî söz varlığı

    Turkish religious terminology in 8th to 13th centuries texts

    BANU GÜZELDEREN

    Doktora

    Türkçe

    Türkçe

    2020

    Türk Dili ve EdebiyatıAkdeniz Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. SUAT ÜNLÜ

  5. Yazarı bilinmeyen mensur bir kıssa kitabı (İnceleme-metin-dizin-tıpkıbasım)

    A book of story which unknown author (Analysis-text-index-facsimile)

    ZANA JALIL BILAL BILAL

    Doktora

    Türkçe

    Türkçe

    2023

    Türk Dili ve EdebiyatıNiğde Ömer Halisdemir Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET BÜYÜKAKKAŞ