Türkçe dokümanlar için n-gram tabanlı sınıflandırma: Yazar, tür ve cinsiyet
N-gram based classification for turkish text: Author,genre and gender
- Tez No: 182635
- Danışmanlar: Y.DOÇ.DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2006
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Bizler bilgilerin değerli olduğu bir dünyada yaşıyoruz. Son yıllarda bilgi miktarınınartması, ihtiyaç duyduğumuz bilgilere kısa sürede erişebilmeyi zor hale getirmiştir ve buproblem nedeniyle bu işlerin elle yapılabilmesi neredeyse imkansızdır. Probleminçözümü için doküman sınıflandırma sistemlerine ihtiyaç duyulmaktadır. Diğer dillerinaksine bu konuda Türkçe üzerinde çok az çalışma mevcuttur. Sınıflandırma işlemidoküman işleme için önemli bir konu olup, elektronik ortamdaki dokümanların otomatikolarak sınıflandırılmasına izin verir. Bu çalışmada; Türk dilinin 2, 3 ve 4'lü gramlarıçıkarılarak farklı boyutlarda özellik vektörleri oluşturulmuştur. Daha sonra bu özellikvektörlerinin boyutları korelasyon tabanlı özellik seçiciler kullanılarak azaltılmış ve farklıboyutlarda özellik vektörleri elde edilmiştir. N-gram modeline dayalı bu özellikvektörleri, seçilmiş (sınıflandırma başarısı yüksek) sınıflandırma yöntemleri yardımıylaTürkçe bir dokümanın türünü, yazarını ve doküman yazarının cinsiyetini belirlemekamacıyla kullanılmışlardır.Kullanılan veri seti spor, magazin, güncel, ekonomi, sağlık ve politika gibi farklıkonularda yazan 20 yazara ait, 40 adet doküman alınarak 800 metinden oluşmaktadır.Dokümanın türünü, yazarını ve yazarın cinsiyetini belirlemek için eldeki veri seti üç ayrıformatta düzenlenmiştir. Ayrıca sınıflandırma başarısının tesadüfi olmadığını göstermekiçin tüm deneylerde 10-kat çapraz geçerlilik uygulanmıştır.Tür, yazar ve cinsiyet belirlemede hangi n-gram özelliklerin daha başarılı olduğunuanaliz etmek amacıyla beş farklı sınıflandırma metodu kullanılarak performanslarıbirbirleri ile karşılaştırılmıştır. Bu metotlardan dördünü Naive Bayes, Destek VektörMakinesi, Rastgele Orman, K-En Yakın Komşuluk gibi bilinen sınıflandırma yöntemleri,birini de bizim geliştirdiğimiz ng_ind yöntemi oluşturmaktadır. Sınıflandırıcıları birliktekullanma işleminin başarısını gözlemlemek amacıyla, Naive Bayes, Destek VektörMakinesi, Rastgele Orman ve K-En Yakın Komşuluk yöntemleri birlikte kullanılmıştır.Yapılan denemelere göre, cinsiyet belirleme için bayan yazarların yazıları, tür belirlemeiçin spor ve güncel alanlarda yazılmış yazılar, yazar tanımada da bayan yazarlarınyazıları daha başarılı sonuçlar vermiştir. Özelliklerin azaltılması ile elde edilen özellikvektörleri, diğer özellik vektörlerine göre daha iyi performans göstermiştir ve en yüksekbaşarı oranını, yazar tanımada DVM, tür ve cinsiyet belirlemede Ng-ind yöntemivermiştir. Birlikte kullanılan sınıflandırıcılar ile bireysel sınıflandırıcılara göre dahayüksek başarı sonuçları alınmıştır.
Özet (Çeviri)
We live in a world where the information has an important value. It has been diffucult toaccess the data we need in a reasonable time because of the increasing amount of data,and this has led a new problem of that doing this by hand has been almost impossible.Thus, document classification systems are needed in order to solve the problem. But,there are only a few studies about this topic in Turkish in spite of the other languages.Classification operation is an important subject for document processing, and it allowsdigital documents to be processed automatically. In this thesis study, property vectors ofTurkish language in different dimensions have been constructed by finding out 2nd, 3rd,and 4th order grams. Then, the dimensions of these property vectors have been reducedby using correlation based propoerty choosers, and property vectors in differentdimensions have been obtained. These property vectors have been used in order todetermine the type, author name and author sex of a Turkish document by the help ofclassification methods.The dataset used in the study contains 800 articles of 40 documents which are belong to20 authors writing about sports, magazine, health and politics. The used dataset isarranged in three different formats in order to find out the the type, author name andauthor sex of the documents. Also, 10-times dioganal validity has been applied in order todemonstrate that classification success is not Random.Performances have been compared by using five different types of classification methodsin order to analyze which properties are more successfull for determining type, authorname and author sex of documents. The four known ones of these classification methodsare Naive Bayes, Support Vector Machine, Random Forest, and K-Nearest Neighbormethods. The last of these methods is ng_ind method that we proposed and developed inthis study. Naive Bayes, Support Vector Machine, Random Forest, and K-NearestNeighbor methods have been used together in order to observe the performance of theoperation of using classificators together.The experiments have shown that the articles about sports and daily news are moresuccessfull for determining document types while the articles of women authors are moresuccessfull for determining the author name and author sex of the documents. Theproperty vector obtained by reducing the propoerties has had a better performancecompared to others. DVM method has given the most successful result for authorrecognition while Ng-ind has given the most successful result for genre and genderdetermination. Classificators used together have given more successfull results comparedwith individual classificators.
Benzer Tezler
- Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma
Language identification with classification methods using trigram feature data set
ŞENGÜL BAYRAK
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHaliç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. HİDAYET TAKÇI
PROF. DR. MÜBARİZ EMİNLİ
- Türkçe dokümanların sınıflandırılması
Classification of Turkish documents
RUMEYSA YILMAZ
Yüksek Lisans
Türkçe
2013
MatematikAdnan Menderes ÜniversitesiMatematik Ana Bilim Dalı
YRD. DOÇ. DR. RIFAT AŞLIYAN
- Karakter tabanlı doküman dili tanıma sistemi tasarımı
Character based language identification system design
HİDAYET TAKCI
Doktora
Türkçe
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. İBRAHİM SOĞUKPINAR
- Otomatik metin özetleme sistemi
Automatic tex summarization system
AYSUN GÜRAN
Doktora
Türkçe
2013
MatematikYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN