Geri Dön

Turkish language characteristics and author identification

Türk dilinin karakteristikleri ve yazar tanıma

  1. Tez No: 243799
  2. Yazar: FERİŞTAH ÖRÜCÜ
  3. Danışmanlar: YRD. DOÇ. DR. GÖKHAN DALKILIÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Doğal dil modelleri ve dil karakteristikleri, bilgisayar bilimleri alanında veri güvenliği, dil teşhisi, imla denetimi, veri sıkıştırma, yazar tanıma ve ses tanıma gibi bir çok alanda sıklıkla kullanılmaktadır. Bu çalışma kapsamında, büyük ölçekli bir Türkçe külliyat oluşturularak, Türk diline ait karakteristiklerin keşfedilmesi amacı ile bir uygulama geliştirilmiştir. Çeşitli NLP çalışmalarına zemin hazırlamak amacıyla, külliyat üzerinde kelime ve harf bazlı bir çok analiz gerçekleştirilmiştir.Çalışmanın bir sonraki adımında, yazarı bilinmeyen bir makalenin yazarını tahminlemek amacı ile, kelime n-gramları tabanlı iki farklı yöntem kullanılmıştır. 16 yazar için, çalışma ve test grubu makaleleri derlenmiş ve bahsi geçen iki yöntem bu makaleler üzerinde denenmiştir. Son olarak iki yöntemden elde edilen sonuçlar karşılaştırılarak, en verimli yöntem saptanmıştır.

Özet (Çeviri)

Models of natural languages and language characteristics are widely used in many computer science applications such as data security, language identification, spell checking, data compression, authorship attribution and speech recognition. In the scope of this study, a large scale corpus is created and used to discover language characteristics of Turkish. Word and letter based analyses are made on this corpus to build a base for several NLP studies.In the next step of the study, we used two different methods based on word n-grams to identify author of an anonymous text. For 16 authors, training and test set articles are collected, and mentioned two methods are applied on these article sets. Finally, obtained results are compared and most successful method is determined.

Benzer Tezler

  1. 1924-1960 yılları arasında eser veren öğretmen yazarların eserlerinin öğretmen ve eğitim idealizmi yönünden değerlendirilmesi

    An evaluation of the literary works of teacher- author, who produced their work between 1924-1960 in terms of teacher and education idealism

    İPEK ERCANASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimBursa Uludağ Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. EROL OGUR

  2. Ethem Baran'ın roman ve hikâyelerinde insan

    Human being in novels and stories of Ethem Baran

    BÜŞRA EMİNE KURTEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Türk Dili ve EdebiyatıKırıkkale Üniversitesi

    Türk Edebiyatı Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZNUR ÖZDARICI

  3. Sinân'ın Hoca-nâme Mesnevîsi: Metin - inceleme - dizin

    Sinân Hoca-nâme text with transcription - analysis - index

    NİHAL YAVUZ

    Doktora

    Türkçe

    Türkçe

    2015

    Türk Dili ve EdebiyatıGazi Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. AHMET MERMER

  4. Nazlı Eray'ın romanlarında toplumsal cinsiyet açısından kadın ve erkek

    Women and men in terms of gender in Nazlı Eray's novels

    MERVE DİNÇARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Türk Dili ve EdebiyatıBartın Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    DOÇ. DR. MACİT BALIK