Multiclass analysis of automatic text classification techniques
Otomatik metin sınıflandırma tekniklerinin çok sınıflı analizi
- Tez No: 521266
- Danışmanlar: DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Metin sınıflandırma ve kümeleme; doğal dil işleme uygulamaları içerisindeki en popüler araştırma alanlarındandır. Bu iki alan, otomatik metin analizi başlığındaki uygulamalarda derlem dinamiklerini ölçecek metriklerin belirlenmesinde araştırmacılara farklı olanaklar sunmaktadır. Metin analizi uygulamalarında geliştirilen İngilizce tabanlı sistemlerin en çok konuşulan ikinci dil olarak gösterilen İspanyolca için yeteri kadar incelenmediği gözlemlenmektedir. Özellikle, çok sınıflı metin sınıflandırması konusunda yapılan çalışma sayılarının İngilizce ile karşılaştırıldığında oldukça az olduğu görülmektedir. Bu çalışmanın amacı, İspanyolca metin sınıflandırma için kullanılabilecek bir derlem üzerinde, makine öğrenmesi yöntemleri ile sınıflandırıcılar geliştirmek ve farklı parametreler üzerinden karşılaştırmalı analizini gerçekleştirmektir. Bunun yanında duyarlılık analizi uygulanarak yöntemler içerisindeki kritik parametre değerleri ölçülerek optimum performans etkilerinin hesaplanması da amaçlanmıştır. 10 farklı konudan oluşan bir derlem hazırlanarak oluşturulan İspanyolca derlem içerisinde; elektronik gazete ve dergilerdeki metinler, gerekli ön işlem adımları uygulandıktan sonra konularına göre dizinlenerek makine öğrenmesi için hazırlanmıştır. Naive Bayes, Karar Ağaçları (Decision Trees), Maksimum Entropi ve Karar Destek Vektör Makineleri kullanılmıştır. Sınıflandırıcıların performansa etki eden temel parametreleri incelenmiş ve en çok etki edenler üzerinde analiz yapılmıştır. Yapılan 1800'den fazla testin sonuçları ilgili metotların başarıyla konu sınıflandırma yapabildiğini göstermektedir. Duyarlılık analizi sınıflandırıcının doğruluk değerinde %2 ile %16 arasında iyileşme sağlamaktadır. En iyi performansı veren metotlar konu tahmin konusunda %89, %88 ve %87 gibi bir doğruluğa ulaşmaktadır. Test sonuçları doğruluk, kesinlik ve anmanın yanında, sınıflandırıcı modeli hazırlanması için gerekli işlem süresi yönünden de incelenerek optimum sınıflandırıcı için yorum yapılmıştır.
Özet (Çeviri)
Text classification and clustering; are one of the most popular areas of research in natural language processing applications. These areas offer different possibilities to the researchers for determining the metrics that can measure corpora dynamics in the automatic text analysis applications. It is observed that English-based systems developed for the text analysis applications were not studied extensively for Spanish, which is the second most spoken language. In particular, it seems that the number of studies on multi-class text classification is very small compared to English language. The purpose of this work is to develop classifiers with machine learning methods on a corpus that can be used for Spanish text classification and to perform comparative analysis over different parameters. It is also aimed to calculate the optimum performance effects by measuring the critical parameter values in the methods by applying sensitivity analysis. Spanish corpus was created by preparing a set of 10 different topics from texts of electronic newspapers and magazines. The indexing was achieved according to the topics where the pre-processing steps were completed for the machine learning methods. Naive Bayes, Decision Trees, Maximum Entropy and Decision Support Vector Machines are used. The basic parameters affecting the performance of the classifiers were examined and analyzed. The results of more than 1800 tests indicate that the methods can successfully classify the topics. Sensitivity analysis improves the accuracy of the classifier from 2% to 16%. The methods that yield the best performance have reached an accuracy of 89%, 88% and 87%, respectively. In addition to the accuracy, precision and recall of the test results, the computation time has been integrated to the analysis where the classifier models have been computed.
Benzer Tezler
- Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması
Automatic classification of help tickets in user support systems
MÜCAHİT ALTINTAŞ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Metin madenciliği ve makine öğrenmesi ile internet sayfalarının sınıflandırılması
Web page classification using text mining and machine learning
İLKER ŞAHİN
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri MühendisliğiHacettepe ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. OUMOUT CHOUSEIN OGLOU
- Plant identification using deep convolutional networks based on principal component analysis
Ana bileşen analizine dayalı derin konvolüsyonel ağ kullanımıyla bitki tanımlama
MOSTAFA MEHDİPOUR GHAZİ
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi
Analysis of container port operations using machine learning methods
ÜSTÜN ATAK
Doktora
Türkçe
2022
Deniz Bilimleriİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
PROF. DR. YASİN ARSLANOĞLU
PROF. DR. TOLGA KAYA
- Speech synthesis using long-term short memory and recurrent neural network (LTSM-RNN)
Uzun süreli kısa kullanarak konuşma sentezi bellek ve tekrarlamalı sinir ağları (LTSM-RNN)
ARKAN ADNAN IMRAN AL-YASARI
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Prof. Dr. GALİP CANSEVER