Automatic text categorization of turkish news with machine learning and deep learning techniques
Türkçe haberlerin makine dili ve derin öğrenme teknikleriyle otomatik sınıflandırılması
- Tez No: 597995
- Danışmanlar: DR. ÖĞR. ÜYESİ HİLAL KAYA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 54
Özet
Metin haberlerinin kategorilendirilmesi, haber türlerinin içeriklerine göre sınıflandırılması sürecidir. Bu çalışmada kullanılan Türkçe haber veri setinde, iki tür otomatik öğrenme süreci inşa edilmiştir. Bu iki yöntemden birincisinde, veriler belge biçiminde ve Support Vector Machines SVM makina öğrenmesi kullanılarak sınıflandırılmıştır.İkinci yöntemde etiketlenen haberler Recurrent Neural Network RNN makina öğrenmesi ile sınıflandırılmıştır. Veri setinde, toplam 9000 veri içeren üç haber kategorisi bulunmaktadır. Türkçe karakterler kullanılarak model oluşturulmuştur. Bu modeller eğitilmiş ve test edilmiştir. Hangi modelin daha iyi olduğu, elde edilen sonuçlar karşılaştırılması neticesinde, 0.98 olan RNN modelinin doğruluğunun, 0.96 olan SVM modelinin doğruluğuna göre daha iyi olduğunu göstermiştir, ancak hız oranı SVM, RNN den daha hızlıydı. Biraz zaman gerekirse, metni sınıflandırmak için SVM algoritmasını kullanabiliriz. Sınıflandırmada yüksek doğruluk durumunda, RNN sınıflandırmas metodu kullmıştır.
Özet (Çeviri)
Categorization of text news is the process of determining the types of the news according to their contents. We construct two types of automatic learning process of the Turkish news on the same dataset. In the first of these two methods, the data was in the document form and classified with Support Vector Machines SVM, and in the second method, data is in the label format for classification with Recurrent Neural Network RNN. In the sample dataset, there are three categories of news including total 9000 data. Turkish characters are also included in creating a model for classification of Turkish news. After the training and testing of these models and obtaining the accuracy results categorizing news in text, we compare the accuracies of these two models. The results showed that the accuracy of RNN model, which is 0.98 better than the results of accuracy of SVM model that is 0.96. The results of the comparison between algorithms, accuracy, performance measures for RNN were better than SVM but the speed ratio of SVM model was faster than in RNN model. If a little time is required, we can use the SVM algorithm to classify the text. In case of high accuracy in the classification, we use the RNN classification method.
Benzer Tezler
- Text categorization and ensemble pruning in turkish news portals
Türkçe haber portallarında metin sınıflandırma ve topluluk budama
ÇAĞRI TORAMAN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FAZLI CAN
- A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization
Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi
KEREM ÇELİK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. TUNGA GÜNGÖR
- Automatic topic categorization of turkish faxed bank documents in the presence of ocr errors
Türkçe fakslanmış banka belgelerinin okt hataları varlığında otomatik konu sınıflandırması
SEÇİL ÖZTÜRK
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
PROF. DR. MEHMET BÜLENT SANKUR
- An evaluation of existing and new feature selection metrics in automatic text categorization
Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi
ŞERAFETTİN TAŞCI
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. TUNGA GÜNGÖR
- Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi
Effetcts of dimensionality reduction and feature selection in text categorization
OSMAN DURMAZ
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HASAN ŞAKİR BİLGE