Geri Dön

Automatic text categorization of turkish news with machine learning and deep learning techniques

Türkçe haberlerin makine dili ve derin öğrenme teknikleriyle otomatik sınıflandırılması

  1. Tez No: 597995
  2. Yazar: SAMEER SAEED IBRAHIM ABBAS
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HİLAL KAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 54

Özet

Metin haberlerinin kategorilendirilmesi, haber türlerinin içeriklerine göre sınıflandırılması sürecidir. Bu çalışmada kullanılan Türkçe haber veri setinde, iki tür otomatik öğrenme süreci inşa edilmiştir. Bu iki yöntemden birincisinde, veriler belge biçiminde ve Support Vector Machines SVM makina öğrenmesi kullanılarak sınıflandırılmıştır.İkinci yöntemde etiketlenen haberler Recurrent Neural Network RNN makina öğrenmesi ile sınıflandırılmıştır. Veri setinde, toplam 9000 veri içeren üç haber kategorisi bulunmaktadır. Türkçe karakterler kullanılarak model oluşturulmuştur. Bu modeller eğitilmiş ve test edilmiştir. Hangi modelin daha iyi olduğu, elde edilen sonuçlar karşılaştırılması neticesinde, 0.98 olan RNN modelinin doğruluğunun, 0.96 olan SVM modelinin doğruluğuna göre daha iyi olduğunu göstermiştir, ancak hız oranı SVM, RNN den daha hızlıydı. Biraz zaman gerekirse, metni sınıflandırmak için SVM algoritmasını kullanabiliriz. Sınıflandırmada yüksek doğruluk durumunda, RNN sınıflandırmas metodu kullmıştır.

Özet (Çeviri)

Categorization of text news is the process of determining the types of the news according to their contents. We construct two types of automatic learning process of the Turkish news on the same dataset. In the first of these two methods, the data was in the document form and classified with Support Vector Machines SVM, and in the second method, data is in the label format for classification with Recurrent Neural Network RNN. In the sample dataset, there are three categories of news including total 9000 data. Turkish characters are also included in creating a model for classification of Turkish news. After the training and testing of these models and obtaining the accuracy results categorizing news in text, we compare the accuracies of these two models. The results showed that the accuracy of RNN model, which is 0.98 better than the results of accuracy of SVM model that is 0.96. The results of the comparison between algorithms, accuracy, performance measures for RNN were better than SVM but the speed ratio of SVM model was faster than in RNN model. If a little time is required, we can use the SVM algorithm to classify the text. In case of high accuracy in the classification, we use the RNN classification method.

Benzer Tezler

  1. Text categorization and ensemble pruning in turkish news portals

    Türkçe haber portallarında metin sınıflandırma ve topluluk budama

    ÇAĞRI TORAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  2. A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization

    Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi

    KEREM ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. TUNGA GÜNGÖR

  3. Automatic topic categorization of turkish faxed bank documents in the presence of ocr errors

    Türkçe fakslanmış banka belgelerinin okt hataları varlığında otomatik konu sınıflandırması

    SEÇİL ÖZTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

    PROF. DR. MEHMET BÜLENT SANKUR

  4. An evaluation of existing and new feature selection metrics in automatic text categorization

    Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi

    ŞERAFETTİN TAŞCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. TUNGA GÜNGÖR

  5. Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi

    Effetcts of dimensionality reduction and feature selection in text categorization

    OSMAN DURMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HASAN ŞAKİR BİLGE