Geri Dön

Tamgacı: Artırımsal ve geri beslemeli Türkçe yazar çözümleme

Turkish authorship analysis with an incremental and adaptive model

  1. Tez No: 355632
  2. Yazar: OĞUZ ASLANTÜRK
  3. Danışmanlar: PROF. DR. HAYRİ SEVER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Yazar Çözümleme, bir metnin özelliklerini kullanarak o metnin yazarına ilişkin bilgi çıkartma eylemidir. Yaklaşık 130 yıllık geçmişe sahip bu araştırma konusunun kriminal, edebi, ticari ve akademik çerçevede önemli kullanım alanları bulunmaktadır. Yazar Tanıma ise bir metnin aday yazarlar arasından hangisi tarafından yazıldığını tespit etmeye çalışan ve Yazar Çözümleme disiplininin bir alt kolu olarak değerlendirilen bir araştırma alanıdır. Yazar Tanıma temelde bir sınıflandırma problemi olduğundan, makine öğrenmesi tekniklerinden bu alanda sıklıkla faydalanılmaktadır. Ancak yapılan çalışmalarda bugüne kadar 1000 kadar özellik incelenmiş olmasına rağmen, metne ait hangi özelliklerin en iyi, en başarılı özellikler olduğu konusunda halen ortak bir uzlaşı yoktur. Kullanılan metin özellikleri yazarların yüksek doğruluk oranlarıyla tanınmasında önemli olduğu kadar, oluşturulan sınıflandırıcıların eğitilmeleri için harcanan kaynaklar açısından da önemlidir. Çünkü özellik vektörleri büyüdükçe, kestirimsel modellerin eğitim süreleri de uzamakta, sınıflandırıcılar daha karmaşık hale gelmektedir. Öte yandan, zaman geçtikçe yazar üsluplarında meydana gelebilecek değişiklikler de kullanılan metin özelliklerinin değiştirilmesi ya da sınıflandırıcıların yeniden eğitilmesini gerektirebilir. Bu tez çalışmasında Türkçe için Yazar Tanıma amacıyla kullanılabilecek sözcüksel ve sözdizimsel metin özelliklerinden hangilerinin yazarları doğru olarak belirlemede en yüksek başarım oranını verdiği, buna ek olarak da başarımı yüksek bir en küçük metin özellikleri kümesinin tespiti araştırılmıştır. Bu amaçla Kaba Küme teorisinden faydalanılarak sınıflandırıcılar oluşturulmuş, belirlenen 37 metin özelliğinden hareketle tanımlanan 6 özellik grubunun bütün kombinasyonları ile,“Zamana Bağımlı”ve“Zamandan Bağımsız”modeller ile değişik zaman aralıkları için deneyler yapılmıştır. Deneyler gerçekleştirilirken, metin özelliklerinin yanısıra sınıflandırıcıların başarımlarının geçen zamanla birlikte değişip değişmediği, değişiyorsa nasıl değiştiği ve ne kadar süre boyunca yeniden eğitilmelerine gerek kalmadan kullanılabilecekleri de incelenmiştir. 12.000'den fazla köşe yazısı üzerinde yapılan 1134 deneyin sonuçları, Türkçe yazar tanımada en başarılı metin özelliklerinin bazı noktalama işaretleri (tire işareti, alt çizgi, taksim (slash) karakteri, ters taksim (back slash) karakteri, parantez, ampersand işareti), olduğunu, ayrıca hangi metin özelliklerinin kullanıldığından bağımsız olarak, sınıflandırıcıların en fazla 1 yıl süre ile yeniden eğitilmelerine gerek olmadan kullanılabileceklerini göstermiştir.

Özet (Çeviri)

Authorship Analysis is the analysis of a text to get information about the author of that text. It has a long history about 130 years with a wide range of studies, and is an important research topic for criminal, literary, commercial, and academic disciplines. Authorship Attribution is one of the distinct problems of Authorship Analysis and it deals with the identification of the author of a disputed text within a predefined set of candidate authors. Since it is basically a classification problem, machine learning techniques are widely employed for Authorship Attribution studies. However, although approximately 1000 stylistic features have been studied in different researches, there is still no consensus on which are the best and most distinctive. Stylistic features are very important for high prediction accuracies, as well as the resources needed to train the classifiers, because classification models become more complex when the size of input increased. On the other hand, changes of writing styles of authors in time may require to retrain the classifiers, or change the feature sets used. In this thesis, lexical and syntactical stylistic features were analyzed for Authorship Attribution in Turkish. As well as finding the most distinctive features for author detection, the smallest but distinctive sets of these features were investigated. Rough Set-based classifiers were constructed for this purpose, and all of the combinations of 6 feature groups defined from 37 features were analyzed with experiments which were performed using Time Dependent or Time Independent models for various periods of texts. By means of these models and periods, the effects of a possible temporal change on classifiers' performances were analyzed, as well as the distinctiveness of the features. Results of 1134 experiments performed on more than 12.000 articles pointed that the most distinctive feature sets for Authorship Attribution in Turkish are some of the punctuation marks (hyphen, underscore, slash, back slash, paranthesis, ampersand). Additionally, independently of the features selected to train the them, classifiers should be used for at most 1 year before they are retrained.

Benzer Tezler

  1. Eski Türklerde devlet teşkilâtı (Gök Türk Dönemi)

    State organization of the ancient Turks (The Türk Qa?anate Period)

    HAYRETTİN İHSAN ERKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    TarihHacettepe Üniversitesi

    Tarih Ana Bilim Dalı

    PROF. DR. ÖZKAN İZGİ

  2. İslam öncesi Türk kültüründe elçi ve elçilik müessesesi

    The ambassador and the embassy institution in pre-Islamic Turkish culture

    NURDAN VARDAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Tarihİstanbul Üniversitesi

    Tarih Ana Bilim Dalı

    PROF. DR. MUALLA UYDU YÜCEL

  3. Sivas'taki yerel radyo ve televizyonların ekonomi politik bağlamda incelenmesi

    Examination of local radio and televisions in Sivas in the context of economy political

    SERDAR TAMGAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Radyo-TelevizyonSivas Cumhuriyet Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    DOÇ. DR. ONUR TAYDAŞ

  4. Sustainability and collapse of fixed exchange rate regimes in emerging markets

    Başlık çevirisi yok

    ÜNAY TAMGAÇ TEZCAN

    Doktora

    İngilizce

    İngilizce

    2010

    EkonomiUniversity of California, Santa Cruz

    PROF. DR. MİCHAEL M. HUTCHİSAN

  5. Batı Karahanlılar'da (1042-1212)Tamgaç Buğra İbrahim Han (1052-1068)dönemi ve faaliyetleri

    The period of Tamgac Bugra İbrahim Khanand his activiti̇es in Western Karakhanids

    MURAT KOCA

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Tarihİstanbul Üniversitesi

    İslam Tarihi ve Sanatları Ana Bilim Dalı

    DOÇ. DR. İLYAS TOPSAKAL