Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

PDF İndir

Tez No: 296124
Yazar: KEZİBAN SEÇKİN
Danışmanlar: DOÇ. DR. ERMAN COŞKUN
Tez Türü: Yüksek Lisans
Konular: Siyasal Bilimler, İşletme, Political Science, Business Administration
Anahtar Kelimeler: Metin Madenciliği, N-gram, Vektör Uzay Modeli, Naive Bayes, Metin Madenciliği Uygulamaları, Text Mining, N-gram, Vector-space Model, Naïve Bayes, Applications of Text Mining
Yıl: 2011
Dil: Türkçe
Üniversite: Sakarya Üniversitesi
Enstitü: Sosyal Bilimler Enstitüsü
Ana Bilim Dalı: İşletme Ana Bilim Dalı
Bilim Dalı: Üretim Yönetimi ve Pazarlama Bilim Dalı
Sayfa Sayısı: 133

Özet

İletişim ve bilgisayar teknolojilerindeki gelişmelere paralel olarak, insanlar daha fazla bilgiye erişim olanağı bulmuşlardır. Bilginin çok kısa sürede toplanması, depolanması, işlenmesi ve bilgiye dönüştürülüp yeniden istenilen birimlere aktarılması ihtiyacı yeni disiplinlerin ortaya çıkmasına neden olmuştur. Metin madenciliği bu yeni disiplinlerin doğuşuyla ortaya çıkan bilgi analiz yöntemlerinden biridir ve yapısal olmayan verilerden yani metinlerden anlamlı ve kullanılabilir bilgilerin çıkarılması için metinin çeşitli istatistiksel yöntemlerle analiz edilmesini amaçlamaktadır.Bu çalışmanın amacı, metin madenciliğinin her aşamasında kullanılan dilbilgisel ve istatistiksel teknik ve algoritmaların incelenmesi ve karşılaştırılması, ayrıca sınıflandırma algoritmaların metin madenciliği uygulamalarında gösterdiği performansın incelenmesidir. Çalışmada metin madenciliği uygulaması olarak, siyasi parti liderlerinin yaptığı grup genel toplantı konuşma metinlerinin sınıflandırılması için gerekli analiz ve sonuçlarına yer vermiştir. Bu amaç doğrultusunda Türkiye'deki üç büyük siyasi parti liderine ait 10'ar konuşmanın yer aldığı 30 adet konuşmadan oluşan veri seti kullanılmıştır. Özellik çıkarımı tekniklerinden gövdeleme yöntemi, grup genel toplantı konuşmaları kullanılarak elde edilen 2-gramlar ve 3-gramlar, kelime kümeleme yöntemlerinden K-Means algoritması gibi dilbilgisel ve istatistiksel özellikler kullanılarak 8 farklı özellik vektörü oluşturulmuştur ve bu özellik vektörleri frekansa göre ve terim frekansı x ters doküman frekansı ağırlıklandırma yöntemlerine göre ağırlıklandırılmıştır. Makine öğrenmesi yöntemlerinden olan Naive Bayes, Destek Vektör Makinesi, K-En Yakın Komşuluk Algoritması ve Karar Ağaçları algoritmaları kullanılarak her bir özellik vektörünün sınıflandırmadaki başarıları karşılaştırılmıştır.Çalışmanın sonuçlarına göre, en başarılı sınıflandırma algoritması Naive Bayes ve Destek Vektör Makinesi algoritmalarıdır. Dokümanların sınıflandırılmasında, grup genel toplantı konuşmaları kullanılarak elde edilen 2-gramların ve K-Means algoritması ile elde edilen özellik vektörlerinin konuşmaları sınıflandırma üzerinde daha başarılı sonuçlar ürettikleri görülmüştür.

Özet (Çeviri)

In parallel with the developments in communication and computer technologies, much more information is available today. Collecting information in a very short time, storing, processing, transmitting and transforming it into new information for the demanding departments have given way to the emergence of new disciplines. Text mining is one of these disciplines. Text mining is analyzing un-structured data, namely texts, by means of various statistical methods to extract meaningful and usable information.The first aim of this study is to conduct research on linguistics and technical algorithms which are used in text mining, to compare them and to analyze performance of different classification algorithms with an application. In application part, the aim of this study was to determine by which political party leader the chosen party caucus speeches were made. In this thesis, on this basis, a data set made up of 30 different speeches, every 10 of which were made by one of 3 political leaders, were used. By using parsing method, a feature extraction method, and 2-grams and 3-grams gained from caucus speeches as well as word clustering methods such as K-Means algorithms having characteristics of linguistic and statistical features, 8 different feature vectors were formed. By weighting of these feature vectors were made according to weighting methods of term frequency and term frequency x inverse document frequency. By means of Naive Bayes, a machine learning method, support vector machines, k-nearest neighbor algorithm and decision trees algorithms, the success of each feature vector in classification was compared with that of others.In this study, the most successful classification methods were Naive Bayes and support vector machines. As to classifying documents, 2-grams, gained from caucus speeches, and feature vectors, obtained with the help of K-Means algorithms, were seen to produce more successful results in classifying the speeches.

Benzer Tezler

Tez No
724944
İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karadeniz Teknik Üniversitesi
İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
Tez No
889931
Türkiye'de yönetim bilişim sistemleri alanında yapılan lisansüstü tezlerin metin madenciliği yöntemleri ile analizi
Analysis of postgraduate theses in the field of management information systems in Turkey with text mining methods
GÖKTUĞ İLISU
Yüksek Lisans
Türkçe
2024
Yönetim Bilişim Sistemleri Gazi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. NURSAL ARICI
Tez No
450617
Büyük veri araçlarından Hadoop kullanarak veri madenciliği
Data mining using Hadoop big data tool
MEHMET UMUT SALUR
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Pamukkale Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEZAİ TOKAT
Tez No
521898
İstatistiksel öğrenme yöntemleri ile twitter verilerinin analizi: 1 Kasım 2015 Milletvekili Genel Seçimi süreci
Analysis of twitter data by statistical learning methods: 1 November 2015 Parliamentary General Elections
TALİN EVYAPAN
Yüksek Lisans
Türkçe
2018
İstatistik Mimar Sinan Güzel Sanatlar Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI
Tez No
479534
Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hava Harp Okulu Komutanlığı
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ

Geri Dön