Geri Dön

Makine öğrenmesi kullanarak doküman sınıflandırma

Document classification using machine learning

  1. Tez No: 805486
  2. Yazar: GÜLER ALPARSLAN
  3. Danışmanlar: PROF. DR. MAHİR DURSUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Bu tezde makine öğrenmesi teknikleri ve evrişimli sinir ağları (ESA) tabanlı bir derin öğrenme modeli kullanılarak Türkçe metin veri kümeleri sınıflandırılmıştır. Çalışmada Türkçe dilinde iki farklı veri kümesi kullanılmıştır. Bu veri kümeleri, Türkçe haber metinlerinden oluşan TTC-4900 ve e-ticaret platformlarında yer alan ürünlere yapılmış olan Türkçe müşteri yorumlarından oluşan, çalışmada kullanacağımız kısaltmasıyla, MY-15130'dur. Doküman sınıflandırma çalışmasında Rastgele Orman (RO), Naive Bayes (NB), Destek Vektör Makineleri (DVM), K-En Yakın Komşu (KNN) Algoritmaları ve geliştirilen ESA tabanlı derin öğrenme modeli seçilen veri kümelerine uygulanmıştır. Türkçe dilinde seçilen veri kümeleri, metin ve sınıf adedi olarak birbirinden farklı yapıda tercih edilmiş böylece kelime vektör boyutunun aynı deney ortamında sınıflandırma başarısına etkisi araştırılmıştır. Kelime temsil yöntemi olarak Terim Frekansı-Ters Doküman Frekansı (TF-IDF) belirlenmiş olup, sınıflandırma işlemi öncesi veri kümelerine uygulanan durdurma kelimeleri filtreleme ve kök bulma ön işlemlerinin de sınıflandırma sonuçlarına katkısı değerlendirilmiştir. Ayrıca kelime temsil vektörlerine öznitelik seçimi uygulanarak boyutları düşürülmüş, böylece nihai vektör boyutunun da sonuçlara etkisi araştırılmıştır. Bahsedilen tüm ön işlemlerin farklı birleşimleri uygulanarak ortaya çıkan kelime vektörlerinin sınıflandırması sonucunda doğruluk ve F1-skor değerleri karşılaştırılmıştır. Karşılaştırmalar her bir sınıflandırma algoritması özelinde ayrı tablolar halinde sunulmuştur. Ayrıca tüm algoritmaların birbiri ile karşılaştırmasını içeren tablolar oluşturularak sonuçlar analiz edilmiştir. Uygulanan ön işlemler ve geliştirilen derin öğrenme modeli ile, TTC-4900 veri kümesi kullanan ilişkili çalışmalardan daha yüksek F1-skoru (%92,2) elde edilmiştir.

Özet (Çeviri)

In this study, a text classification has been carried out on Turkish datasets using machine learning techniques and a deep learning model based on convolutional neural networks (CNN). Two different datasets in Turkish language were used in the study, TTC-4900, which consists of Turkish news texts, and MY-15130, with the name we will use in the study, which consists of customer comments in Turkish on the products on e-commerce platforms. In the text classification study, Random Forest, Naive Bayes, Support Vector Machines, K-Nearest Neighbor algorithms and a CNN based deep learning model were used. The datasets selected in Turkish are different from each other in terms of the number of texts and the number of classes. In this way, the effect of word embedding size on classification success was investigated. As a word embedding method, we preferred Term Frequency-Inverse Document Frequency (TF-IDF). The effects of the stopwords eliminating and lemmatizing pre-processes applied before the classification study, on the classification success was also evaluated. In addition, the size of the word embeddings was reduced by applying feature selection, and the effect of the final vector size on the results was investigated. The accuracy and F1-score values were compared as a result of the classification of the feature vectors by applying different combinations of the pre-processes. The comparisons were represented in separate tables for each classification algorithm used. In addition, F1-score comparison tables of the algorithms with each other were presented and the values were analyzed. In the classification study with the applied preprocessing and deep learning model, a higher F1-score (92.2%) was obtained compared to the related studies using the TTC-4900 dataset.

Benzer Tezler

  1. Resim tabanlı osmanlıca belgelerde sınıflandırma

    Classification of image-based ottoman records

    RAMAZAN PEHLİVAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Matematik Bilgisayar Ana Bilim Dalı

    YRD. DOÇ. DR. LEVENT ÇUHACI

  2. Multi-view short-text classification using knowledge bases

    Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma

    MERT ÇALIŞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEMAL OKAN ŞAKAR

  3. Yapay bağışıklık sistemlerini kullanarak türkçe metinlerde tür, yazar ve cinsiyet tanıma

    Genre, author and gender recognition in turkish texts using artificial immune systems

    ZAFER KABAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. BANU DİRİ

  4. Soru yanıtlama sistemleri için hibrid makine öğrenmesi tekniklerine dayalı bir yöntem tasarımı ve gerçekleştirimi

    The design and implementation of a method for question answering systems based on hybrid machine learning techniques

    SİNEM ÇINAROĞLU

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN BULUT

  5. Multilevel sentiment analysis in Arabic

    Arapça için çok düzeyli duygu analizi

    AHMED NASSAR

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EBRU AKÇAPINAR SEZER