Geri Dön

Melez yaklaşımlarla Türkçe dokümanlarda yazar tanıma

Author attribution of Turkish documents with hybrid approaches

  1. Tez No: 182753
  2. Yazar: FİLİZ TÜRKOĞLU
  3. Danışmanlar: YRD. DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Yazar tanıma, metin sınıflandırma, özellik seçme, sınıflandırıcıbirleştirme, Naive Bayes, Destek Vektör Makinesi, Rastgele Orman, K-EnyakınKomşuluk, Çok Katmanlı Algılayıcı ve Öz Düzenleyici Özellik Haritası, Authorship attribution, text classification, feature selection, combiningclassifier, Naive Bayes, Support Vector Machine, Random Forest, Multilayer Perceptron, K-Nearest Neighbour, Self-Organizing Feature Vector
  7. Yıl: 2006
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

İnternet'in yaygınlaşmasıyla elektronik ortamdaki doküman sayısı oldukça artmıştır.Gittikçe artan bu bilgiye daha kolay ve hızlı erişmek amacıyla metin sınıflandırma önemkazanmaktadır. Son yıllarda, metin sınıflandırma alanında yapılan çalışmaların bir kısmı,yazar tanıma adı verilen ve anonim bir metnin yazarını veya yazarı şüpheli olan birmetnin yazarını belirlemeyi amaçlayan çalışmaları kapsamaktadır.Bu çalışmada, Türkçe dokümanların yazarlarının belirlenmesinde farklı özelliklerin vesınıflandırıcıların performansa etkileri araştırılmıştır. Dokümanların istatistiksel,dilbilgisel, kelime zenginliğine dayalı özellik vektörleri çıkarılmıştır. Ayrıca Türkçedokümanlar için ilk defa, işlevsel kelimelerin frekansları çıkarılarak ayrı bir özellikvektörü daha oluşturulmuştur. Sonraki aşamada seçilen bazı vektörler birleştirilerek yeniözellik vektörleri oluşturulmuştur. Sistemin öğrenmesine etkisi olmayan veya ayırt ediciözelliği fazla bulunmayan özellikleri elemek amacıyla, özelllik azaltma metoduuygulanarak yeni vektörler elde edilmiştir. Sonuçta, 14 farklı özellik vektörüoluşturulmuş ve bunlar ile denemeler yapılmıştır.Kullanılan külliyat, sağlık, gündem, ekonomi gibi farklı konularda yazan 18 yazara ait,35 adet doküman alınarak 630 metinden oluşmaktadır. Farklı doküman gruplarının, farklıkonularda yazılan metinlerin ve yazar sayısının başarıya olan etkisini gözlemlemekamacıyla 3 farklı külliyat grubu oluşturulmuştur. Tüm deneylerde 10-kat çapraz geçerlilikuygulanmıştır.Yazar belirlemede hangi özellik veya özellik birleşimlerinin daha başarılı olduğunuanaliz etmek amacıyla altı farklı sınıflandırma metodu kullanılarak performanslarıkarşılaştırılmıştır. Bu metodlar Naive Bayes, Destek Vektör Makinesi, Rastgele Orman,K-Enyakın Komşuluk, Çok Katmanlı Algılayıcı ve Öz Düzenleyici Özellik Haritası' dır.Sınıflandırıcı birleştirme işleminin performansını gözlemlemek amacıyla, Naive Bayes,Destek Vektör Makinesi ve Rastgele Orman yöntemleri birleştirilmiştir.Yapılan denemelere göre, en başarılı sonuçlar, yazar sayısının az olduğu ve farklıkonulardaki yazılardan oluşan külliyattan elde edilmiştir. Tüm özelliklerinbirleştirilmesinden oluşan özellik vektörü, diğerlerine göre daha iyi performans göstermişve en yüksek başarı oranını Çok Katmanlı Algılayıcı yöntemi vermiştir. Birleştirilmişsınıflandırıcılar ile bireysel sınıflandırıcılara göre daha düşük başarı sonuçları alınmıştır.

Özet (Çeviri)

There are numerous text documents available in electronic form. With the rapid growthof online information, text categorization has become one of the best automatedtechniques for handling, organizing text data. During the last decades, many classificationtasks that are called author attribution were studied for identifying the author of ananonymous text, or text whose authorship is in doubt.In this study the effect of different features and classifiers on performance of authorattribution of Turkish texts are explored. Different vectors of statistical, grammatical,richness features are generated. Also a set of function words were applied on Turkishdocuments for the first time. All feature sets are combined and new vectors are obtained.In order to escape from features that are not relevant and beneficial for learning, featureselection method is applied over features and new vectors are formed from these reducedfeatures. In the end we obtained 14 different feature vectors.Corpus used in this work is formed from singly-authored 630 documents obtained from35 texts per 18 different authors that are writing on different subjects like medical,popular interest and economics. To determine the capability of identifying authorship forheterogeneous documents, and different dataset sizes, this corpus is divided into 3 parts:Dataset I, Dataset II, Dataset III. Experiments are run 10-fold cross-validation on alldatasets.To analyse which features or feature combinations are successful for identifying theauthor of a document, comparative performance of six different classification methodsare used. These methods are Naive Bayes, Support Vector Machine, Random Forest,Multilayer Perceptron, k-Nearest Neighbour and Self-organizing Feature Vector. Wecombined Random Forest, Naive Bayes and Support Vector Machine in order to analysesuccess ratio in proportion to single classifiers.According to experimental results, most successful results are obtained from corpus ofwhich author count is less and documents are written on different topics. Feature vectorwhich is combined from all features gives better performance than others. Highest scoreis obtained from Multilayer Perceptron method. Combined classifiers gave poor results inproportion to single classifiers.

Benzer Tezler

  1. Otomatik metin özetleme sistemi

    Automatic tex summarization system

    AYSUN GÜRAN

    Doktora

    Türkçe

    Türkçe

    2013

    MatematikYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  2. Uluslararası yapım firmalarında rekabete dayalı stratejik performans (RDSP) benchmarking modeli

    Competitive strategic performance benchmarking (CSPB) model in international construction companies

    TUĞÇE ŞİMŞEKALP ERCAN

    Doktora

    Türkçe

    Türkçe

    2013

    MimarlıkYıldız Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    YRD. DOÇ. DR. ALMULA KÖKSAL

  3. Veteriner ilaçları talep tahmini örneğinde mevsimsel zaman serilerinin ekonometrik modellemesi

    The econometric modelling of seasonal time series in forecasting veterinarian demand

    EBRU AKEL SAATCİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Ekonometriİstanbul Üniversitesi

    Ekonometri Ana Bilim Dalı

    YRD. DOÇ. DR. KUTLUK KAĞAN SÜMER

  4. Günümüz sanatında posthuman kavramının gündelik hayat çerçevesinde incelenmesi

    Analysing the concept of posthuman in contemporary art within the framework of daily life

    ÖZLEM KARAGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Güzel SanatlarDokuz Eylül Üniversitesi

    Resim Ana Sanat Dalı

    DR. ÖĞR. ÜYESİ BORGA KANTÜRK

  5. Gelenek ve modernite dikotomisinde Türk popüler müzik yapıları ve melezlik

    Turkish popular music structures and hybridity in dichotomy of tradition and modernity

    GÖKSAL ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    MüzikBursa Uludağ Üniversitesi

    Müzik Ana Sanat Dalı

    PROF. GÖKÇE ALTAY ARTAR