Literary fingerprints: Detection of book genre and author style using natural language processing and machine learning
Edebi parmak izleri: Doğal dil işleme ve makine öğrenmesi yöntemleriyle kitap türü ve yazar anlatım tarzının belirlenmesi
- Tez No: 946942
- Danışmanlar: DR. ÖĞR. ÜYESİ AYÇA TOPALLI
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İzmir Ekonomi Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 133
Özet
Edebi eserlerin içeriklerine dayalı olarak yazar tahmini yapmak, tür sınıflandırması gerçekleştirmek ve öneri sistemi geliştirmek, doğal dil işleme alanında giderek önem kazanan bir araştırma konusudur. Bu tez çalışmasında, kitap metinlerinin vektör uzayında temsil edilmesiyle hem sınıflandırma hem de içerik tabanlı öneri sunabilen bir sistem geliştirilmiştir. Çalışma kapsamında Türkçe ve İngilizce romanlardan oluşan kapsamlı veri kümeleri oluşturulmuştur; metinler küçük harfe dönüştürülmüş, noktalama işaretleri ve özel karakterlerden temizlenerek ön işleme tabi tutulmuştur. Temizlenen metinler, Doc2Vec algoritması ile sabit boyutlu vektör temsillerine dönüştürülmüştür. Modelin genelleme başarımını değerlendirmek amacıyla, her yazarın en az bir kitabının test kümesine dahil edildiği özel bir eğitim/test ayrımı uygulanmıştır. Elde edilen belge vektörleri, Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes ve K-En Yakın Komşu gibi sınıflandırıcılar ile yazar ve tür tahmini için kullanılmıştır. Ayrıca bu tezde, klasik Kosinüs Benzerliği yaklaşımının ötesine geçen, vektör merkezli benzerlik ölçümüne dayalı bir yöntem benimsenmiştir. Her yazar ve kategori için eğitim verisinden bir“merkez vektör”çıkarılmış, test kitapları bu merkezlere olan açısal yakınlıklarına göre sınıflandırılmıştır. Bu yaklaşım, modelin kavramsal benzerliklere daha duyarlı çalışmasını sağlamış ve yüksek doğruluk oranlarıyla başarısını ortaya koymuştur. Tezin ikinci aşamasında geliştirilen öneri sistemi, kullanıcı davranışına dayalı filtreleme yöntemlerinden farklı olarak metinsel içerik benzerliklerine odaklanmakta; böylece okuyucuya beğendiği yazarlarla benzer anlatım tarzı taşıyan yeni yazarlar önermektedir. Bu yöntem özellikle az tanınan yazarların görünürlüğünü artırma potansiyeli taşımaktadır. Bu çalışma, belge gömme tabanlı yöntemlerin dijital beşeri bilimler, yazar tahmini ve öneri sistemleri gibi alanlarda etkili bir biçimde kullanılabileceğini göstermektedir.
Özet (Çeviri)
Authorship attribution, genre classification, and recommendation systems based on literary content have become increasingly important in natural language processing (NLP). This thesis presents a system capable of both classification and content-based recommendation by representing book texts in a vector space. Comprehensive datasets of Turkish and English novels were compiled. All texts were lowercased and preprocessed to remove punctuation and special characters, then transformed into fixed-length vectors using the Doc2Vec algorithm. To ensure generalization, a custom train/test split was applied, guaranteeing each author was represented in the test set. These document vectors were used for authorship and genre classification with classifiers such as Logistic Regression, LinearSVC, Random Forest, Gaussian Naive Bayes, and K-Nearest Neighbors. This study also adopts a centroid-based similarity approach that extends traditional cosine similarity principles. For each author and genre, a representative vector was computed from the training data, and test books were classified based on their angular proximity to these centroids. This approach improved conceptual sensitivity and yielded high accuracy. In the second phase, a content-based recommendation system was developed that, unlike collaborative filtering, relies solely on textual similarity. It recommends books with similar narrative styles to those already enjoyed by the reader, helping raise the visibility of lesser-known authors. This research shows that document embedding-based methods can be effectively applied in digital humanities, authorship attribution, and recommendation systems.
Benzer Tezler
- Abziy Kıdırov'un seçme şiirlerinin dil ve üslup bakımından incelemesi (Metin-aktarma-eser incelemesi)
The analyse of the selected poems of Abziy Kydyrov with regards to language and style (Text-translation-work analysis)
FATİH YAKAR
Yüksek Lisans
Türkçe
2018
Türk Dili ve EdebiyatıZonguldak Bülent Ecevit ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. GÜL BANU DUMAN
- شعر المرأة في الأدب العربي الحديث نازك الملائكة وفدوى طوقان أنموذجا
Modern çağda kadın şiiri- model olarak Nazik Al Malaika ve Fadwa Tokan
AMAL S.I. SALEM FAYZA
Yüksek Lisans
Arapça
2022
DinBingöl ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ USAME İHTİYAR
- Cem Sultan'ın Cemşîd ü Hurşîd mesnevisi [Bağlamlı dizin ve işlevsel sözlük]
Cem Sultan's mathnawi of Cemşîd ü Hurşîd [Concordance and functional glossary]
AHMET USLU
Doktora
Türkçe
2024
Türk Dili ve EdebiyatıEskişehir Osmangazi ÜniversitesiEski Türk Edebiyatı Ana Bilim Dalı
DOÇ. DR. TUBA ONAT ÇAKIROĞLU
- Edebi haz ve Roland Barthes
Literary pleasure and Roland Barthes
ALİ FUAT KISAKÜREK
Yüksek Lisans
Türkçe
2015
Fransız Dili ve Edebiyatıİstanbul Bilgi ÜniversitesiKarşılaştırmalı Edebiyat Ana Bilim Dalı
DR. SÜHA OĞUZERTEM
- Şehâdet-Nâme-i Veysî(İnceleme-tenkitli metin)
Şehâdet-Nâme-i̇ Veysî(Review-criticizing text)
SEVİNJ MUSAYEVA
Yüksek Lisans
Türkçe
2015
Türk Dili ve EdebiyatıÇukurova Üniversitesiİslam Tarihi ve Sanatları Ana Bilim Dalı
DOÇ. DR. NURAN ÖZTÜRK