Geri Dön

Türkçenin biçimbilimsel yapısının sıkıştırmaya uygunluğunun araştırılması

The investigation of conformity to compression of the morphological structure of turkish language

  1. Tez No: 244082
  2. Yazar: HAYRİYE GÖKSU
  3. Danışmanlar: YRD. DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

İnternet' in yaygınlaşmasıyla elektronik ortamdaki doküman sayısı oldukça artmıştır. Gittikçe artan bu bilgiye daha kolay ve hızlı erişmek amacıyla metin sıkıştırma önem kazanmaktadır. Son yıllarda, metin sıkıştırma alanında yapılan çalışmaların bir kısmı, dilin biçimbilimsel yapısını kullanmayı amaçlayan çalışmaları kapsamaktadır.Bu çalışmada, Türkçe ve İngilizce dokümanların sıkıştırılma verimlerinin belirlenmesinde farklı ayrıştırma yöntemleri ve bu yöntemlerin sıkıştırma oranına etkileri araştırılmıştır. Dokümanlar Türkçe ve İngilizcenin biçimbilimsel yapısı kullanılarak ayrıştırılmıştır. Sonraki aşamada ayrıştırılan dokümanlardaki yapılara sıkıştırma işlemi uygulanmıştır. Sonuçta, 17 farklı ayrıştırma tekniği oluşturulmuş ve bunlar ile farklı külliyatlar üzerinde denemeler yapılmıştır.Kullanılan Türkçe külliyatlar, siyaset, spor, güncel gibi farklı konularda yazan 18 erkek, 4 kadın olmak üzere toplam 22 yazara ait, 900 farklı dokümandan oluşturulmuştur. İngilizce için oluşturulan külliyat, güncel konularda yazan farklı kişilere ait 290 farklı dokümandan elde edilmiştir. Farklı doküman gruplarının, farklı konularda yazılan metinlerin, yazar sayısının ve yazar cinsiyetinin başarıya olan etkisini gözlemlemek amacıyla 9 farklı külliyat grubu oluşturulmuştur.Sıkıştırma oranını belirlemede, doküman boyutunun sıkıştırmaya olan etkisini tespit edebilmek amacıyla her külliyatın altında 10 farklı boyuttaki dokümana Huffman sıkıştırma metodu uygulanarak elde edilen performanslar karşılaştırılmıştır.Yapılan denemelere göre, en başarılı sonuçlar, 1024Kb boyutundaki dosyalarda ve tez yazılarından elde edilen külliyattan sağlanmıştır. Farklı konularda yazan kadın yazarların yazılarının yer aldığı dokümanlardan ise en başarısız sıkıştırma oranları elde edilmiştir.

Özet (Çeviri)

With the rapid growth of online information, the number of documents in electronic media is very common increased. Easy and quick access to this information gets more important for the purpose of text compression. In recent years, a portion of the work in the field of text compression, covers study aimed to the morphological structure of the language.In this study, Turkish and English documents are compressed in the determination of the different decomposition methods and efficiency, this method has been to investigate the effects of compression. Turkish and English documents that are parsed by using morphological structure. The next stage in the parsed document structure is applied to the compression process. As a result, created 17 different parsing techniques with which attempts were made on a different corpus.Corpus used in Turkish politics, sports, current issues such as by 18 men, 4 women for a total of 22 authors, from 900 different documents were created. Created for the English corpus, belonging to different people by the current issues of 290 different documents have been obtained. Of different documents, written texts in different subjects, the number of writers and authors to observe the effects of gender on the success of the group was created 9 different corpus.In determining the compression ratio, the effect is to compress the size of the document in order to detect 10 different size at the bottom of each corpus document obtained by applying Huffman compression method performances are compared.According to testing, the most successful results, 1024Kb in size from files and writing the thesis has been provided from the corpus. Different issues included articles by women writers of the document have been obtained if the failure rates of compression.

Benzer Tezler

  1. Independence of case and inner aspect in Turkish

    Türkçede durum ve içsel görünüşün bağımsızlığı

    DERİN DİNÇER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UMUT ÖZGE

  2. Language production in a typological perspective: A corpus study of Turkish slips of the tongue

    Tipolojik açıdan dil üretimi: Türkçe dil sürçmeleri derlemi çalışması

    İBRAHİM ÖZGÜR ERİŞEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DENİZ ZEYREK

    YRD. DOÇ. DR. ANNETTE HOHENBERGER

  3. Türkçe kelimelerin biçim birimlerine ayrılması için kullanılacak standart biçim birimi kümesinin oluşturulması

    A unified suffix set for morphological analysis of Turkish words

    ÖZKAN ASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    DilbilimMuğla Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. B. TANER DİNÇER

  4. Türkçe metinden konuşma sentezlemeye yönelik yapılan çalışmaların incelenmesi

    Analysis of studies in Turkish text to speech synthesis

    GAMZE YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırşehir Ahi Evran Üniversitesi

    İleri Teknolojiler Ana Bilim Dalı

    DOÇ. DR. OSMAN ÖRNEK

    DOÇ. DR. MUSTAFA YAĞCI