Geri Dön

Web tabanlı metinlerde yazarın anadilini tanımlama

Authors native language identification in web mediums

  1. Tez No: 315548
  2. Yazar: PARHAM MOHAMMADALİPOUR TOFİGHİ
  3. Danışmanlar: DOÇ. DR. CEMAL KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 74

Özet

İnternet teknolojileri ve uygulamalarının hızlı gelişimine rağmen metinsel sayfalar hala en yaygın internet ortamlarıdır. Bunun en önemli örnekleri olarak, çoğunlukla metin tabanlı olan Twitter, Facebook, vb. sosyal ağ uygulamaları ile haber grupları, e-posta, blog, vb. gibi web uygulamaları verilebilir. Dolayısıyla, bu çalışmada, Metinsel veri Madenciliği ve Belge Sınıflandırma çerçevesinde, yazarların ana dillerini belirlemeye bir giriş çalışması yapılmıştır. Özellikle, birçok internet uygulamasında olduğu gibi İngilizcede yazılmış bir metinin yazarının ana dilini belirlemek için bir sistem geliştirilmiştir. Bu çalışmada, stylometry ve geleneksel makine öğrenmesi gibi alanlardan teknikler kullanarak bir yazarın ana dilinin belirlenmesi için bir araç geliştirilmiştir. Burada, bir yazarın tarzı, metinden çeşitli stylometric özelliklerin ölçümleri yapılarak bir örüntü (pattern) tanıma işlemine dönüştürülmektedir. Bir stilistik metnin özelliklerini dört türde (Sözcüksel, Sözdizimsel, Yapısal ve İçeriğe özgü özellikleri) ve makine öğrenme algoritmasını da üç türde (destek vektör makinesi, karar ağacı ve Naïve Bayes) ele alınmış ve daha sonra amaçlanan özelliklere dayanarak yazarın Anadilinin Tanımlaması işlemi gerçeklenmiştir. Yapılan çalışmada, dört farklı anadilden yazarlar (Türkçe, Almanca, Farsçanın ve İngilizce) tarafından yazılan çevrimiçi haber sayfalarından oluşan bir veritabanı kullanılmıştır.

Özet (Çeviri)

In the domain of Text Mining and Document Classification, an introduction into the field of Authorship Attribution is presented. On the other hand, with the rapid growth of Internet technologies and applications, text is still the most common Internet medium. Examples of this include social networking applications such as Twitter, Facebook, etc. and web applications such as newsgroups, email, blog, etc. are also mostly text based. We developed a framework to determine an anonymous author?s native language for short length and multi-genre writing in English such as the ones found in many Internet applications.This thesis describes the development of such a tool using techniques from the fields of stylometry and traditional machine learning techniques. An author?s style can be reduced to a pattern by making measurements of various stylometric features from the text. In this framework, four types of stylistic text features (Lexical, Syntactic, Structural, and Content-Specific Features) are extracted and two machine learning algorithms (Decision Tree, Support Vector Machine and Naïve Bayesian) are designed for author?s native language identification based on the proposed features. For this research, we used four different collections of writings online news messages by speakers of four different nationalities: native English as well as speakers of Turkish, German, and Persian.

Benzer Tezler

  1. Metin madenciliği yöntemleri ile yazar tanıma: Divan Edebiyatı örneği

    Authorship recognition with text mining methods: The example of Divan literature

    ALİ OSMAN BİLGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  2. İngiliz basınında İslamofobi söylemi: BBC News örneği

    Islamophobia discourse in the British press: The case of BBC News

    TUĞBA TAŞDEMİR

    Doktora

    Türkçe

    Türkçe

    2024

    DinOndokuz Mayıs Üniversitesi

    Felsefe ve Din Bilimleri Ana Bilim Dalı

    PROF. DR. ALİ RIZA AYDIN

  3. Comprehensive written corrective feedback: Effects on l2 syntactic accuracy and complexity in writing

    İkinci dilde yazmada kapsamlı yazılı düzeltici geri bildirimin sözdizimsel doğruluk ve karmaşıklık üzerine etkileri

    MOHAMMADREZA VALİZADEH

    Doktora

    İngilizce

    İngilizce

    2019

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DOÇ. DR. HACER HANDE UYSAL GÜRDAL

  4. İnşaat sözleşmelerinde hak talebi yönetimi: Kamu projeleri için öneri model

    Claim management in construction contracts: Proposed model for public construction projects

    İSMAİL CENGİZ YILMAZ

    Doktora

    Türkçe

    Türkçe

    2013

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HÜSEYİN ATİLLA DİKBAŞ

  5. Türkçe metinlerde denetimli ve sözlük tabanlı duygu analizi yaklaşımlarının karşılaştırılması

    Comparison of supervised and dictionary based sentiment analysis approaches on Turkish text

    BURAK İBRAHİM SEVİNDİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HACER KARACAN