Geri Dön

Literary fingerprints: Detection of book genre and author style using natural language processing and machine learning

Edebi parmak izleri: Doğal dil işleme ve makine öğrenmesi yöntemleriyle kitap türü ve yazar anlatım tarzının belirlenmesi

  1. Tez No: 946942
  2. Yazar: DOĞUKAN ÖZYURT
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYÇA TOPALLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İzmir Ekonomi Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 133

Özet

Edebi eserlerin içeriklerine dayalı olarak yazar tahmini yapmak, tür sınıflandırması gerçekleştirmek ve öneri sistemi geliştirmek, doğal dil işleme alanında giderek önem kazanan bir araştırma konusudur. Bu tez çalışmasında, kitap metinlerinin vektör uzayında temsil edilmesiyle hem sınıflandırma hem de içerik tabanlı öneri sunabilen bir sistem geliştirilmiştir. Çalışma kapsamında Türkçe ve İngilizce romanlardan oluşan kapsamlı veri kümeleri oluşturulmuştur; metinler küçük harfe dönüştürülmüş, noktalama işaretleri ve özel karakterlerden temizlenerek ön işleme tabi tutulmuştur. Temizlenen metinler, Doc2Vec algoritması ile sabit boyutlu vektör temsillerine dönüştürülmüştür. Modelin genelleme başarımını değerlendirmek amacıyla, her yazarın en az bir kitabının test kümesine dahil edildiği özel bir eğitim/test ayrımı uygulanmıştır. Elde edilen belge vektörleri, Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes ve K-En Yakın Komşu gibi sınıflandırıcılar ile yazar ve tür tahmini için kullanılmıştır. Ayrıca bu tezde, klasik Kosinüs Benzerliği yaklaşımının ötesine geçen, vektör merkezli benzerlik ölçümüne dayalı bir yöntem benimsenmiştir. Her yazar ve kategori için eğitim verisinden bir“merkez vektör”çıkarılmış, test kitapları bu merkezlere olan açısal yakınlıklarına göre sınıflandırılmıştır. Bu yaklaşım, modelin kavramsal benzerliklere daha duyarlı çalışmasını sağlamış ve yüksek doğruluk oranlarıyla başarısını ortaya koymuştur. Tezin ikinci aşamasında geliştirilen öneri sistemi, kullanıcı davranışına dayalı filtreleme yöntemlerinden farklı olarak metinsel içerik benzerliklerine odaklanmakta; böylece okuyucuya beğendiği yazarlarla benzer anlatım tarzı taşıyan yeni yazarlar önermektedir. Bu yöntem özellikle az tanınan yazarların görünürlüğünü artırma potansiyeli taşımaktadır. Bu çalışma, belge gömme tabanlı yöntemlerin dijital beşeri bilimler, yazar tahmini ve öneri sistemleri gibi alanlarda etkili bir biçimde kullanılabileceğini göstermektedir.

Özet (Çeviri)

Authorship attribution, genre classification, and recommendation systems based on literary content have become increasingly important in natural language processing (NLP). This thesis presents a system capable of both classification and content-based recommendation by representing book texts in a vector space. Comprehensive datasets of Turkish and English novels were compiled. All texts were lowercased and preprocessed to remove punctuation and special characters, then transformed into fixed-length vectors using the Doc2Vec algorithm. To ensure generalization, a custom train/test split was applied, guaranteeing each author was represented in the test set. These document vectors were used for authorship and genre classification with classifiers such as Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes, and K-Nearest Neighbors. This study also adopts a centroid-based similarity approach that extends traditional cosine similarity principles. For each author and genre, a representative vector was computed from the training data, and test books were classified based on their angular proximity to these centroids. This approach improved conceptual sensitivity and yielded high accuracy. In the second phase, a content-based recommendation system was developed that, unlike collaborative filtering, relies solely on textual similarity. It recommends books with similar narrative styles to those already enjoyed by the reader, helping raise the visibility of lesser-known authors. This research shows that document embedding-based methods can be effectively applied in digital humanities, authorship attribution, and recommendation systems.

Benzer Tezler

  1. Abziy Kıdırov'un seçme şiirlerinin dil ve üslup bakımından incelemesi (Metin-aktarma-eser incelemesi)

    The analyse of the selected poems of Abziy Kydyrov with regards to language and style (Text-translation-work analysis)

    FATİH YAKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Türk Dili ve EdebiyatıZonguldak Bülent Ecevit Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    DOÇ. DR. GÜL BANU DUMAN

  2. شعر المرأة في الأدب العربي الحديث نازك الملائكة وفدوى طوقان أنموذجا

    Modern çağda kadın şiiri- model olarak Nazik Al Malaika ve Fadwa Tokan

    AMAL S.I. SALEM FAYZA

    Yüksek Lisans

    Arapça

    Arapça

    2022

    DinBingöl Üniversitesi

    Temel İslam Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ USAME İHTİYAR

  3. Cem Sultan'ın Cemşîd ü Hurşîd mesnevisi [Bağlamlı dizin ve işlevsel sözlük]

    Cem Sultan's mathnawi of Cemşîd ü Hurşîd [Concordance and functional glossary]

    AHMET USLU

    Doktora

    Türkçe

    Türkçe

    2024

    Türk Dili ve EdebiyatıEskişehir Osmangazi Üniversitesi

    Eski Türk Edebiyatı Ana Bilim Dalı

    DOÇ. DR. TUBA ONAT ÇAKIROĞLU

  4. Edebi haz ve Roland Barthes

    Literary pleasure and Roland Barthes

    ALİ FUAT KISAKÜREK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Fransız Dili ve Edebiyatıİstanbul Bilgi Üniversitesi

    Karşılaştırmalı Edebiyat Ana Bilim Dalı

    DR. SÜHA OĞUZERTEM

  5. Şehâdet-Nâme-i Veysî(İnceleme-tenkitli metin)

    Şehâdet-Nâme-i̇ Veysî(Review-criticizing text)

    SEVİNJ MUSAYEVA

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Türk Dili ve EdebiyatıÇukurova Üniversitesi

    İslam Tarihi ve Sanatları Ana Bilim Dalı

    DOÇ. DR. NURAN ÖZTÜRK