Türkçenin biçimbilimsel yapısının sıkıştırmaya uygunluğunun araştırılması
The investigation of conformity to compression of the morphological structure of turkish language
- Tez No: 244082
- Danışmanlar: YRD. DOÇ. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 102
Özet
İnternet' in yaygınlaşmasıyla elektronik ortamdaki doküman sayısı oldukça artmıştır. Gittikçe artan bu bilgiye daha kolay ve hızlı erişmek amacıyla metin sıkıştırma önem kazanmaktadır. Son yıllarda, metin sıkıştırma alanında yapılan çalışmaların bir kısmı, dilin biçimbilimsel yapısını kullanmayı amaçlayan çalışmaları kapsamaktadır.Bu çalışmada, Türkçe ve İngilizce dokümanların sıkıştırılma verimlerinin belirlenmesinde farklı ayrıştırma yöntemleri ve bu yöntemlerin sıkıştırma oranına etkileri araştırılmıştır. Dokümanlar Türkçe ve İngilizcenin biçimbilimsel yapısı kullanılarak ayrıştırılmıştır. Sonraki aşamada ayrıştırılan dokümanlardaki yapılara sıkıştırma işlemi uygulanmıştır. Sonuçta, 17 farklı ayrıştırma tekniği oluşturulmuş ve bunlar ile farklı külliyatlar üzerinde denemeler yapılmıştır.Kullanılan Türkçe külliyatlar, siyaset, spor, güncel gibi farklı konularda yazan 18 erkek, 4 kadın olmak üzere toplam 22 yazara ait, 900 farklı dokümandan oluşturulmuştur. İngilizce için oluşturulan külliyat, güncel konularda yazan farklı kişilere ait 290 farklı dokümandan elde edilmiştir. Farklı doküman gruplarının, farklı konularda yazılan metinlerin, yazar sayısının ve yazar cinsiyetinin başarıya olan etkisini gözlemlemek amacıyla 9 farklı külliyat grubu oluşturulmuştur.Sıkıştırma oranını belirlemede, doküman boyutunun sıkıştırmaya olan etkisini tespit edebilmek amacıyla her külliyatın altında 10 farklı boyuttaki dokümana Huffman sıkıştırma metodu uygulanarak elde edilen performanslar karşılaştırılmıştır.Yapılan denemelere göre, en başarılı sonuçlar, 1024Kb boyutundaki dosyalarda ve tez yazılarından elde edilen külliyattan sağlanmıştır. Farklı konularda yazan kadın yazarların yazılarının yer aldığı dokümanlardan ise en başarısız sıkıştırma oranları elde edilmiştir.
Özet (Çeviri)
With the rapid growth of online information, the number of documents in electronic media is very common increased. Easy and quick access to this information gets more important for the purpose of text compression. In recent years, a portion of the work in the field of text compression, covers study aimed to the morphological structure of the language.In this study, Turkish and English documents are compressed in the determination of the different decomposition methods and efficiency, this method has been to investigate the effects of compression. Turkish and English documents that are parsed by using morphological structure. The next stage in the parsed document structure is applied to the compression process. As a result, created 17 different parsing techniques with which attempts were made on a different corpus.Corpus used in Turkish politics, sports, current issues such as by 18 men, 4 women for a total of 22 authors, from 900 different documents were created. Created for the English corpus, belonging to different people by the current issues of 290 different documents have been obtained. Of different documents, written texts in different subjects, the number of writers and authors to observe the effects of gender on the success of the group was created 9 different corpus.In determining the compression ratio, the effect is to compress the size of the document in order to detect 10 different size at the bottom of each corpus document obtained by applying Huffman compression method performances are compared.According to testing, the most successful results, 1024Kb in size from files and writing the thesis has been provided from the corpus. Different issues included articles by women writers of the document have been obtained if the failure rates of compression.
Benzer Tezler
- Independence of case and inner aspect in Turkish
Türkçede durum ve içsel görünüşün bağımsızlığı
DERİN DİNÇER
Yüksek Lisans
İngilizce
2024
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UMUT ÖZGE
- Language production in a typological perspective: A corpus study of Turkish slips of the tongue
Tipolojik açıdan dil üretimi: Türkçe dil sürçmeleri derlemi çalışması
İBRAHİM ÖZGÜR ERİŞEN
Yüksek Lisans
İngilizce
2010
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DENİZ ZEYREK
YRD. DOÇ. DR. ANNETTE HOHENBERGER
- Computer processing of Turkish: Morphological and lexical investigation
Başlık çevirisi yok
TUNGA GÜNGÖR
Doktora
İngilizce
1995
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiPROF.DR. SELAHATTİN KURU
- Türkçe kelimelerin biçim birimlerine ayrılması için kullanılacak standart biçim birimi kümesinin oluşturulması
A unified suffix set for morphological analysis of Turkish words
ÖZKAN ASLAN
Yüksek Lisans
Türkçe
2008
DilbilimMuğla Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. B. TANER DİNÇER
- Türkçe metinden konuşma sentezlemeye yönelik yapılan çalışmaların incelenmesi
Analysis of studies in Turkish text to speech synthesis
GAMZE YILMAZ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırşehir Ahi Evran Üniversitesiİleri Teknolojiler Ana Bilim Dalı
DOÇ. DR. OSMAN ÖRNEK
DOÇ. DR. MUSTAFA YAĞCI