Geri Dön

Genre independent authorship attribution for turkish documents

Türkçe metinlerde farklı janrlarda yazar belirleme

  1. Tez No: 583496
  2. Yazar: HAYRİ VOLKAN AGUN
  3. Danışmanlar: DOÇ. DR. ÖZGÜR YILMAZEL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, İstatistik, Computer Engineering and Computer Science and Control, Science and Technology, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Bu tezde heterojen özelliklere sahip farklı doküman türlerinde yazar tanıma için çok değişkenli analizin kullanıldığı bir ölçekleme algoritması önerilmektedir. Bu ölçekleme algoritması görüntü tanıma sistemlerinde hareketli obje yakalamada kullanılan değişken olmayan arka planın çıkarılması fikrinden esinlenmektedir. Bu algoritma iki adımdan oluşmaktadır. Bunlar; ortak vektör yaklaşımı kullanılarak farklı konu ve janrdaki dokümanların kaynak bazlı ortak özelliklerinin saptanması ve bu ortak özelliklerin doküman vektöründen çıkartılması ile yazar stilinin belirginleştirilmesi adımlarıdır. Yazar tanıma kullanılan metin işleme teknikleri bakımından diğer metin sınıflandırma türlerinden farklıdır. Konu, janr ve hedef okuyucu kitlesi yazarın kelime seçimine etki ederek yazarın stilinin bulanıklaşmasına neden olmaktadır. Bu bağlamda yazarın farklı türdeki dokümanlarının ait olduğu türe göre ölçeklendirmesi yapılarak dokümanların aynı yazar veya farklı yazarlar arasındaki benzerliği belirginleştirilmiştir. Tezde e-posta, internet günlükleri, mikro mesajlar, gazete yazıları, roman alıntıları gibi farklı doküman türleri üzerinde terim ve karakter dizileri kullanılarak sınıflandırma tabanlı doğruluk ölçümleri yapılmıştır. Önerilen ölçeklendirme algoritması sınıflandırma tabanlı yazar tanımada her türlü veri kümesinde konu, özellik ve janrdan bağımsız olarak en yüksek doğruluğu elde etmiştir. Ayrıca çapraz janr ve alanlar üzerine oluşturulmuş doküman kümelerinde sadece terim veya karakter dizileri üzerinde yapılan ölçekleme dilbilimsel analiz kullanılarak elde edilen karmaşık metin işleme teknikleri ile rekabet edebilir düzeydedir.

Özet (Çeviri)

In this thesis, we propose a scaling algorithm using multivariate analysis for authorship attribution in different document types with heterogeneous properties. The scaling algorithm is inspired by the idea of removing the non-variable background used in capturing moving objects in image recognition systems. This algorithm consists of two steps, which are determining the source-based common features of the documents in different topics and genres and removing these common features from the document vector for uncovering the style of the authors. Authorship attribution differs from other text classification types in terms of text processing techniques. The topic, genre, and target audience affect the author's word choice, causing the author's style to blur. In this context, the author's different types of documents are scaled according to the type which the document belongs to, and the similarity between the documents by the same author or different authors is exposed. In the thesis, classification based accuracy measurements were made by using term and character sequences on different types of documents, such as e-mails, blogs, micro messages, newspaper articles, and novel excerpts. The proposed scaling algorithm achieves the highest accuracy regardless of topic, feature set and genre in any dataset in classification based authorship attribution. In addition, scaling on only the term or character sequence features in the cross-domain and cross-genre datasets is highly competitive with the complex text processing techniques obtained by linguistic analysis.

Benzer Tezler

  1. Memduh Şevket Esendal'da toplumsal ve siyasal tanıklık: Değişim ve eleştiri

    Social and political witnesses in Memduh Şevket Esendal: Change and criticism

    AHMET DURAN ARSLAN

    Doktora

    Türkçe

    Türkçe

    2022

    Türk Dili ve EdebiyatıMuğla Sıtkı Koçman Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. ALAATTİN KARACA

  2. Türkiye'de estetik ve pedagojik bir kavram olarak yaratıcı yazarlık

    Creative writing as an aesthetic and pedagogical concept in Turkey

    RAMIL AHMADOV

    Doktora

    Türkçe

    Türkçe

    2023

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. MEHMET SAMSAKÇI

  3. Yeni Türk edebiyatında portre türünün gelişimi

    The development of the portrait genre in new Turkish literature

    DENİZ GÖZDE AVCU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    Türkiyat Araştırmaları Ana Bilim Dalı

    PROF. DR. FİKRET TURAN

  4. Teknik ve tematik açıdan Tevfîk el-Hakîm'in öykücülüğü

    Techni̇cal and thematic analysis of tevfîk el-hakîm's short story

    CENGİZ ÇALIKKILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    DilbilimNecmettin Erbakan Üniversitesi

    Temel İslam Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. MÜCAHİT KÜÇÜKSARI

  5. Fantastik resimde mekan kurgusuna analitik bakış

    An analytical view on spatial construction of fantastic painting

    ÖMER YİĞİT ARAL

    Sanatta Yeterlik

    Türkçe

    Türkçe

    2009

    Güzel SanatlarMimar Sinan Güzel Sanatlar Üniversitesi

    Resim Bölümü

    PROF. FUAT ACAROĞLU