Geri Dön

TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması

Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling

  1. Tez No: 630587
  2. Yazar: DOĞANCAN KINIK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

TF-IDF terim ağırlıklandırma ölçümü kelimelerin metinler içinde geçme sıklığı bilgisine dayalıdır. Bu ölçüm kelimeler arasındaki anlamsal ilişkiyi barındırmamaktadır. Yapay sinir ağlarına dayalı olan Doc2Vec metodu kelimeler ve kelimeleri içeren dokümanlar arasındaki anlamsal ilişkiyi barındırmakta ve yönetilebilir boyutlu doküman vektörlerinin elde edilmesini sağlamaktadır. Ardışık kelime grubu tespitinin metin madenciliği üzerindeki olumlu etkileri literatürde sunulan pek çok çalışma tarafından belirtilmiştir. Ardışık kelime gurubu tespiti doküman içindeki anlamsal bütünlüğün sağlanması açısından önemlidir. Bu çalışmada, hem geleneksel TF-IDF terim ağırlıklandırma ölçümünün, hem de YSA'lara dayalı bir yöntem olan Doc2Vec yönteminin kullanımı ile vektörleştirilen dokümanlar üzerinde temel makine öğrenmesi sınıflandırıcılarının ve topluluk öğrenmesi algoritmalarının başarım değerleri kıyaslanmıştır. Çalışmamızda temel sınıflandırıclar olarak Naive Bayes, K-En yakın komşuluk, Lojistik Regresyon, Karar Destek Makineleri, Karar Ağaçları, Çok Katmanlı Algılayıcılar ve topluluk öğrenmesi metotlarından Rassal Orman, Torbalama ve Adaboost algoritmaları kullanılmıştır. Ayrıca son olarak en başarılı üç sınıflandırma algoritması Çoğunluk oylaması ile birleştirilmiş ve elde edilen sonuçlar paylaşılmıştır. Sınıflandırıcılar farklı uzunluklarda haber dokümanlarını içeren 4 farklı Türkçe veri kümesi üzerinde uygulanmıştır. Çalışmamızın literatüre olan katkısı sınıflandırma aşamasına geçilmeden önce dokümanların içindeki ardışık kelime grubu tespitinin gerçekleştirilmesi ve dokümanların bu kelime öbeklerinin tek bir kelime gibi ele alınmasıyla vektörleştirildikten sonra, uygulanan sınıflandırıcıların başarım değerlerinin arttığının gösterilmesi olmuştur. Ardışık kelime grubu tespiti için kelimelerin birlikte geçme sıklığı prensibine dayalı olan bir prensip dışında, Türkçe Vikipedi'nin kelime bağlantıları da kullanılmış ve dokümanlar içinde az sayıda geçmesine rağmen anlamlı olan ardışık kelime öbeklerinin tespiti gerçekleştirilebilmiştir. Ardışık kelime grubu tespiti ile sınıflandırma deneylerinin hemen hemen tümünde daha yüksek başarım değerleri elde edilmiştir.

Özet (Çeviri)

TF-IDF term weighting measure is based on frequency of words in texts. This measure doesn't capture the semantic relationship between words. Doc2Vec which is based on artificial neural networks can capture the semantic relations between the words and it enables to yield document vectors of a more manageable size. Consecutive word detection has been reported to have important effects on text mining by many studies. Consecutive word phrases are important for expressing the semantic integrity within the texts. In this study, the performances of traditional machine learning classifiers and ensemble learning algorithms are compared on four different Turkish datasets which are vectorized with both traditional TF-IDF term weighting measurement and Doc2Vec method. Naïve Bayes, K-Nearest Neighborhood, Logistic Regression, Support Vector Machines, Decision Trees, Multilayer Perceptrons algorithms are used as base classifiers. Beside these classifiers Random Forest, Bagging and Adaboost algorithms are also used as ensemble learning approaches. The three most successful classification methods are combined with Majority Voting and the classification results are shared. The classifiers have been applied on 4 different Turkish datasets containing news documents of different lengths. The contributions of our study are“to apply consecutive word detection process to the documents before the classification phase”and“to show that the performances of the applied classifiers' results have been increased after the consecutive word detection phase is applied”. In addition to the approach based on frequency of words for consecutive word detection, we also use the url links of Turkish Wikipedia. By using consecutive word detection, higher performance values are presented in almost all classification experiments.

Benzer Tezler

  1. Text classification via word embeddings: An application for Turkish music mood detection

    Kelime temsilleri yoluyla metin sınıflaması: Türkçe müziklerde duygu tespiti uygulaması

    BARIŞ ÇİMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET ONUR DURAHİM

  2. Derin öğrenme yöntemleriyle sosyal medya analizi ve kullanıcı temsili

    Social media analysis and user representation with deep learning methods

    İBRAHİM RIZA HALLAÇ

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GALİP AYDIN

  3. Use of deep learning for research paper recommendation

    Araştırma makale önerisi için derin öğrenmenin kullanımı

    DONIAZAD BEN SAYAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBEYKOZ ÜNİVERSİTESİ

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assist. Prof. Dr. ÖZLEM FEYZA ERKAN

  4. Denetimli makine öğrenmesi algoritmaları ile Türkçe sahte haber tespiti için bir karar destek sistemi

    A decision support system for fake news detection in Turkish language with supervised machine learning algorithms

    YASİN ERDURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Yönetim Bilişim SistemleriGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. CEVRİYE GENCER

  5. Yazılım güvenliğinde derin öğrenme tabanlı kaynak kod analizi ve yorum önerimi

    Deep learning based source code analysis and review recommendations in software security

    YUSUF KARTAL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. KEMAL ÖZKAN