Multiclass analysis of automatic text classification techniques

Otomatik metin sınıflandırma tekniklerinin çok sınıflı analizi

PDF İndir

Tez No: 521266
Yazar: SEMUEL FRANKO
Danışmanlar: DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: İngilizce
Üniversite: Galatasaray Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

Metin sınıflandırma ve kümeleme; doğal dil işleme uygulamaları içerisindeki en popüler araştırma alanlarındandır. Bu iki alan, otomatik metin analizi başlığındaki uygulamalarda derlem dinamiklerini ölçecek metriklerin belirlenmesinde araştırmacılara farklı olanaklar sunmaktadır. Metin analizi uygulamalarında geliştirilen İngilizce tabanlı sistemlerin en çok konuşulan ikinci dil olarak gösterilen İspanyolca için yeteri kadar incelenmediği gözlemlenmektedir. Özellikle, çok sınıflı metin sınıflandırması konusunda yapılan çalışma sayılarının İngilizce ile karşılaştırıldığında oldukça az olduğu görülmektedir. Bu çalışmanın amacı, İspanyolca metin sınıflandırma için kullanılabilecek bir derlem üzerinde, makine öğrenmesi yöntemleri ile sınıflandırıcılar geliştirmek ve farklı parametreler üzerinden karşılaştırmalı analizini gerçekleştirmektir. Bunun yanında duyarlılık analizi uygulanarak yöntemler içerisindeki kritik parametre değerleri ölçülerek optimum performans etkilerinin hesaplanması da amaçlanmıştır. 10 farklı konudan oluşan bir derlem hazırlanarak oluşturulan İspanyolca derlem içerisinde; elektronik gazete ve dergilerdeki metinler, gerekli ön işlem adımları uygulandıktan sonra konularına göre dizinlenerek makine öğrenmesi için hazırlanmıştır. Naive Bayes, Karar Ağaçları (Decision Trees), Maksimum Entropi ve Karar Destek Vektör Makineleri kullanılmıştır. Sınıflandırıcıların performansa etki eden temel parametreleri incelenmiş ve en çok etki edenler üzerinde analiz yapılmıştır. Yapılan 1800'den fazla testin sonuçları ilgili metotların başarıyla konu sınıflandırma yapabildiğini göstermektedir. Duyarlılık analizi sınıflandırıcının doğruluk değerinde %2 ile %16 arasında iyileşme sağlamaktadır. En iyi performansı veren metotlar konu tahmin konusunda %89, %88 ve %87 gibi bir doğruluğa ulaşmaktadır. Test sonuçları doğruluk, kesinlik ve anmanın yanında, sınıflandırıcı modeli hazırlanması için gerekli işlem süresi yönünden de incelenerek optimum sınıflandırıcı için yorum yapılmıştır.

Özet (Çeviri)

Text classification and clustering; are one of the most popular areas of research in natural language processing applications. These areas offer different possibilities to the researchers for determining the metrics that can measure corpora dynamics in the automatic text analysis applications. It is observed that English-based systems developed for the text analysis applications were not studied extensively for Spanish, which is the second most spoken language. In particular, it seems that the number of studies on multi-class text classification is very small compared to English language. The purpose of this work is to develop classifiers with machine learning methods on a corpus that can be used for Spanish text classification and to perform comparative analysis over different parameters. It is also aimed to calculate the optimum performance effects by measuring the critical parameter values in the methods by applying sensitivity analysis. Spanish corpus was created by preparing a set of 10 different topics from texts of electronic newspapers and magazines. The indexing was achieved according to the topics where the pre-processing steps were completed for the machine learning methods. Naive Bayes, Decision Trees, Maximum Entropy and Decision Support Vector Machines are used. The basic parameters affecting the performance of the classifiers were examined and analyzed. The results of more than 1800 tests indicate that the methods can successfully classify the topics. Sensitivity analysis improves the accuracy of the classifier from 2% to 16%. The methods that yield the best performance have reached an accuracy of 89%, 88% and 87%, respectively. In addition to the accuracy, precision and recall of the test results, the computation time has been integrated to the analysis where the classifier models have been computed.

Benzer Tezler

Tez No
384922
Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması
Automatic classification of help tickets in user support systems
MÜCAHİT ALTINTAŞ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
968429
Metin madenciliği ve makine öğrenimi tekniklerinin uygulanmasıyla standart inşaat sözleşmesi belgelerinin metin analizi
Text analysis of standard construction contract documents by the application of text mining and machine learning techniques
ANIL DEMİRCAN
Doktora
Türkçe
2025
İnşaat Mühendisliği Düzce Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. LATİF ONUR UĞUR
Tez No
593830
Metin madenciliği ve makine öğrenmesi ile internet sayfalarının sınıflandırılması
Web page classification using text mining and machine learning
İLKER ŞAHİN
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliği Hacettepe Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. OUMOUT CHOUSEIN OGLOU
Tez No
952982
Discovering market insights from online product reviews through sentiment analysis
Çevrimiçi müşteri yorumları ile duygu analizi ve pazar payı için bir içgörü aracı
MUHAMMET ALİ KADIOĞLU
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI
Tez No
418601
Plant identification using deep convolutional networks based on principal component analysis
Ana bileşen analizine dayalı derin konvolüsyonel ağ kullanımıyla bitki tanımlama
MOSTAFA MEHDİPOUR GHAZİ
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Elektronik Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

Geri Dön