Genre independent authorship attribution for turkish documents
Türkçe metinlerde farklı janrlarda yazar belirleme
- Tez No: 583496
- Danışmanlar: DOÇ. DR. ÖZGÜR YILMAZEL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, İstatistik, Computer Engineering and Computer Science and Control, Science and Technology, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Bu tezde heterojen özelliklere sahip farklı doküman türlerinde yazar tanıma için çok değişkenli analizin kullanıldığı bir ölçekleme algoritması önerilmektedir. Bu ölçekleme algoritması görüntü tanıma sistemlerinde hareketli obje yakalamada kullanılan değişken olmayan arka planın çıkarılması fikrinden esinlenmektedir. Bu algoritma iki adımdan oluşmaktadır. Bunlar; ortak vektör yaklaşımı kullanılarak farklı konu ve janrdaki dokümanların kaynak bazlı ortak özelliklerinin saptanması ve bu ortak özelliklerin doküman vektöründen çıkartılması ile yazar stilinin belirginleştirilmesi adımlarıdır. Yazar tanıma kullanılan metin işleme teknikleri bakımından diğer metin sınıflandırma türlerinden farklıdır. Konu, janr ve hedef okuyucu kitlesi yazarın kelime seçimine etki ederek yazarın stilinin bulanıklaşmasına neden olmaktadır. Bu bağlamda yazarın farklı türdeki dokümanlarının ait olduğu türe göre ölçeklendirmesi yapılarak dokümanların aynı yazar veya farklı yazarlar arasındaki benzerliği belirginleştirilmiştir. Tezde e-posta, internet günlükleri, mikro mesajlar, gazete yazıları, roman alıntıları gibi farklı doküman türleri üzerinde terim ve karakter dizileri kullanılarak sınıflandırma tabanlı doğruluk ölçümleri yapılmıştır. Önerilen ölçeklendirme algoritması sınıflandırma tabanlı yazar tanımada her türlü veri kümesinde konu, özellik ve janrdan bağımsız olarak en yüksek doğruluğu elde etmiştir. Ayrıca çapraz janr ve alanlar üzerine oluşturulmuş doküman kümelerinde sadece terim veya karakter dizileri üzerinde yapılan ölçekleme dilbilimsel analiz kullanılarak elde edilen karmaşık metin işleme teknikleri ile rekabet edebilir düzeydedir.
Özet (Çeviri)
In this thesis, we propose a scaling algorithm using multivariate analysis for authorship attribution in different document types with heterogeneous properties. The scaling algorithm is inspired by the idea of removing the non-variable background used in capturing moving objects in image recognition systems. This algorithm consists of two steps, which are determining the source-based common features of the documents in different topics and genres and removing these common features from the document vector for uncovering the style of the authors. Authorship attribution differs from other text classification types in terms of text processing techniques. The topic, genre, and target audience affect the author's word choice, causing the author's style to blur. In this context, the author's different types of documents are scaled according to the type which the document belongs to, and the similarity between the documents by the same author or different authors is exposed. In the thesis, classification based accuracy measurements were made by using term and character sequences on different types of documents, such as e-mails, blogs, micro messages, newspaper articles, and novel excerpts. The proposed scaling algorithm achieves the highest accuracy regardless of topic, feature set and genre in any dataset in classification based authorship attribution. In addition, scaling on only the term or character sequence features in the cross-domain and cross-genre datasets is highly competitive with the complex text processing techniques obtained by linguistic analysis.
Benzer Tezler
- Memduh Şevket Esendal'da toplumsal ve siyasal tanıklık: Değişim ve eleştiri
Social and political witnesses in Memduh Şevket Esendal: Change and criticism
AHMET DURAN ARSLAN
Doktora
Türkçe
2022
Türk Dili ve EdebiyatıMuğla Sıtkı Koçman ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. ALAATTİN KARACA
- Türkiye'de estetik ve pedagojik bir kavram olarak yaratıcı yazarlık
Creative writing as an aesthetic and pedagogical concept in Turkey
RAMIL AHMADOV
Doktora
Türkçe
2023
Türk Dili ve Edebiyatıİstanbul ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. MEHMET SAMSAKÇI
- Yeni Türk edebiyatında portre türünün gelişimi
The development of the portrait genre in new Turkish literature
DENİZ GÖZDE AVCU
Yüksek Lisans
Türkçe
2019
Türk Dili ve Edebiyatıİstanbul ÜniversitesiTürkiyat Araştırmaları Ana Bilim Dalı
PROF. DR. FİKRET TURAN
- Teknik ve tematik açıdan Tevfîk el-Hakîm'in öykücülüğü
Techni̇cal and thematic analysis of tevfîk el-hakîm's short story
CENGİZ ÇALIKKILIÇ
Yüksek Lisans
Türkçe
2015
DilbilimNecmettin Erbakan ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. MÜCAHİT KÜÇÜKSARI
- Fantastik resimde mekan kurgusuna analitik bakış
An analytical view on spatial construction of fantastic painting
ÖMER YİĞİT ARAL
Sanatta Yeterlik
Türkçe
2009
Güzel SanatlarMimar Sinan Güzel Sanatlar ÜniversitesiResim Bölümü
PROF. FUAT ACAROĞLU