Günümüz yazılı Türkçesinin istatistiksel özellikleri ve bir metin sıkıştırma uygulaması
Statistical properties of contemporary printed Turkish and a text compression application
- Tez No: 114054
- Danışmanlar: DOÇ. DR. MEHMET EMİN DALKILIÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Türkçe'nin entropisi, sembol sıralama algoritması, metin sıkıştırma metodu, Türkçe harf dağılımları, Entropy of Turkish, symbol ranking algorithm, text compression method, Turkish letter frequencies
- Yıl: 2001
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 111
Özet
ÖZET GÜNÜMÜZ YAZILI TÜRKÇESİNİN İSTATİSTİKSEL ÖZELLİKLERİ VE BİR METİN SIKIŞTIRMA UYGULAMASI DALKILIÇ, Gökhan Yüksek Lisans Tezi, Uluslararası Bilgisayar Enstitüsü Tez Yöneticisi: Doç. Dr. Mehmet Emin DALKILIÇ Şubat 2001, 97 sayfa Bu tez çalışmasının amacı, İngilizce için elde edilmiş dil ile ilgili bazı istatistiki değerlerin Türkçe için de elde edilmesidir. Bu amaç kapsamında Shannon ve Cover tarafından geliştirilen entropi testleri deneklere uygulanarak Türkçe'nin entropi ve fazlalık değerleri hesaplanmıştır. Türkçe metinler üzerinde yapılan çalışmalarla, günümüz yazılı Türkçesinin monogram (1-gram), digram (2-gram), trigram (3-gram), tetragram (4-gram) ve pentagram (5-gram) harf sıklık değerleri elde edilmiştir. Bu değerlerden monogram ve pentagramlar bir sembol sıralama algoritması içinde kullanılarak Türkçe metinleri sıkıştırmak amacıyla kullanılabilecek bir metin sıkıştırma uygulaması geliştirilmiştir. Elde ettiğimiz sonuçlar Türkçe'nin entropi değerinin yaklaşık 1,47 bit/sembol ve fazlalık değerinin %70 olduğunu göstermektedir. Bu veriler Türkçe bir metnin geliştirilebilecek uygun bir sıkıştırma algoritması ile %70 oranında sıkıştınlabileceğini göstermektedir.
Özet (Çeviri)
vn ABSTRACT STATISTICAL PROPERTIES OF CONTEMPORARY PRINTED TURKISH AND A TEXT COMPRESSION APPLICATION DALKILIÇ, Gökhan MSc in Computer Science Supervisor: Assoc. Prof. Dr. Mehmet Emin DALKILIÇ February 2001, 97 pages The goal of this thesis study is to obtain some statistical values related to Turkish language that were obtained for English before. To reach this goal, the entropy and redundancy values of Turkish are calculated by applying the entropy tests, developed by Shannon and Cover, to the subjects. Through the work carried out on Turkish texts, the monogram (1- gram), digram (2-gram), trigram (3-gram), tetragram (4-gram), and pentagram (5-gram) letter frequency values for contemporary printed Turkish are obtained. By using the pentagram and monogram values with a symbol ranking algorithm, a text compression application is developed to compress Turkish text. Our results show that the entropy value of Turkish is approximately 1.47 bits/character, and the redundancy value is over 70%. These values show that a Turkish text can be compressed by 70% with a properly developed compression algorithm.
Benzer Tezler
- Cedit Hareketi sürecinde Özbek yazı dili
Uzbek written language in the process of the Jadid Movement
MUSTAFA GÜLER
Doktora
Türkçe
2022
DilbilimSivas Cumhuriyet ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. BİLÂL YÜCEL
- 19. yüzyılda Arnavutluk'ta kullanılmış Türkçe üzerine bir dil incelemesi: Güney Arnavutluk'ta kaleme alınmış yunan harfli Türkçe Bektaşi cönkleri
A linguistic study on the Turkish used in Albania in the 19th century: the Bektashi cönks in Turkish with Greek script written in Southern Albania
FATOS DIBRA
Doktora
Türkçe
2021
Dilbilimİstanbul ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. HATİCE TÖREN
- Ulug'bek Hamdam'ın 'Künglimdӓgi Dӓryå', 'Sӓfӓr', 'Qaytiş', 'Binӓfşӓ' ve 'Yöl (Fӓlsӓfiy Råmӓn)' adlı eserleri üzerine dil incelemesi (metin-inceleme)
A language analysis of Ulug'bek Hamdam's works titled 'Künglimdӓgi Dӓryå', 'Sӓfӓr', 'Qaytiş', 'Binӓfşӓ' and 'Yöl (Fӓlsӓfiy Råmӓn)' (text-review)
HÜSEYİN CAN ÇETİN
Yüksek Lisans
Türkçe
2021
DilbilimMuğla Sıtkı Koçman ÜniversitesiÇağdaş Türk Lehçeleri ve Edebiyatları Ana Bilim Dalı
DOÇ. DR. EKREM AYAN
- VIII.-XIII. yüzyıl metinlerinde Türkçe dinî söz varlığı
Turkish religious terminology in 8th to 13th centuries texts
BANU GÜZELDEREN
Doktora
Türkçe
2020
Türk Dili ve EdebiyatıAkdeniz ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. SUAT ÜNLÜ
- Yazarı bilinmeyen mensur bir kıssa kitabı (İnceleme-metin-dizin-tıpkıbasım)
A book of story which unknown author (Analysis-text-index-facsimile)
ZANA JALIL BILAL BILAL
Doktora
Türkçe
2023
Türk Dili ve EdebiyatıNiğde Ömer Halisdemir ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET BÜYÜKAKKAŞ