Makine öğrenmesi kullanarak doküman sınıflandırma

Document classification using machine learning

PDF İndir

Tez No: 805486
Yazar: GÜLER ALPARSLAN
Danışmanlar: PROF. DR. MAHİR DURSUN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Bilişim Sistemleri Bilim Dalı
Sayfa Sayısı: 67

Özet

Bu tezde makine öğrenmesi teknikleri ve evrişimli sinir ağları (ESA) tabanlı bir derin öğrenme modeli kullanılarak Türkçe metin veri kümeleri sınıflandırılmıştır. Çalışmada Türkçe dilinde iki farklı veri kümesi kullanılmıştır. Bu veri kümeleri, Türkçe haber metinlerinden oluşan TTC-4900 ve e-ticaret platformlarında yer alan ürünlere yapılmış olan Türkçe müşteri yorumlarından oluşan, çalışmada kullanacağımız kısaltmasıyla, MY-15130'dur. Doküman sınıflandırma çalışmasında Rastgele Orman (RO), Naive Bayes (NB), Destek Vektör Makineleri (DVM), K-En Yakın Komşu (KNN) Algoritmaları ve geliştirilen ESA tabanlı derin öğrenme modeli seçilen veri kümelerine uygulanmıştır. Türkçe dilinde seçilen veri kümeleri, metin ve sınıf adedi olarak birbirinden farklı yapıda tercih edilmiş böylece kelime vektör boyutunun aynı deney ortamında sınıflandırma başarısına etkisi araştırılmıştır. Kelime temsil yöntemi olarak Terim Frekansı-Ters Doküman Frekansı (TF-IDF) belirlenmiş olup, sınıflandırma işlemi öncesi veri kümelerine uygulanan durdurma kelimeleri filtreleme ve kök bulma ön işlemlerinin de sınıflandırma sonuçlarına katkısı değerlendirilmiştir. Ayrıca kelime temsil vektörlerine öznitelik seçimi uygulanarak boyutları düşürülmüş, böylece nihai vektör boyutunun da sonuçlara etkisi araştırılmıştır. Bahsedilen tüm ön işlemlerin farklı birleşimleri uygulanarak ortaya çıkan kelime vektörlerinin sınıflandırması sonucunda doğruluk ve F1-skor değerleri karşılaştırılmıştır. Karşılaştırmalar her bir sınıflandırma algoritması özelinde ayrı tablolar halinde sunulmuştur. Ayrıca tüm algoritmaların birbiri ile karşılaştırmasını içeren tablolar oluşturularak sonuçlar analiz edilmiştir. Uygulanan ön işlemler ve geliştirilen derin öğrenme modeli ile, TTC-4900 veri kümesi kullanan ilişkili çalışmalardan daha yüksek F1-skoru (%92,2) elde edilmiştir.

Özet (Çeviri)

In this study, a text classification has been carried out on Turkish datasets using machine learning techniques and a deep learning model based on convolutional neural networks (CNN). Two different datasets in Turkish language were used in the study, TTC-4900, which consists of Turkish news texts, and MY-15130, with the name we will use in the study, which consists of customer comments in Turkish on the products on e-commerce platforms. In the text classification study, Random Forest, Naive Bayes, Support Vector Machines, K-Nearest Neighbor algorithms and a CNN based deep learning model were used. The datasets selected in Turkish are different from each other in terms of the number of texts and the number of classes. In this way, the effect of word embedding size on classification success was investigated. As a word embedding method, we preferred Term Frequency-Inverse Document Frequency (TF-IDF). The effects of the stopwords eliminating and lemmatizing pre-processes applied before the classification study, on the classification success was also evaluated. In addition, the size of the word embeddings was reduced by applying feature selection, and the effect of the final vector size on the results was investigated. The accuracy and F1-score values were compared as a result of the classification of the feature vectors by applying different combinations of the pre-processes. The comparisons were represented in separate tables for each classification algorithm used. In addition, F1-score comparison tables of the algorithms with each other were presented and the values were analyzed. In the classification study with the applied preprocessing and deep learning model, a higher F1-score (92.2%) was obtained compared to the related studies using the TTC-4900 dataset.

Benzer Tezler

Tez No
352453
Resim tabanlı osmanlıca belgelerde sınıflandırma
Classification of image-based ottoman records
RAMAZAN PEHLİVAN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Matematik Bilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. LEVENT ÇUHACI
Tez No
436049
Multi-view short-text classification using knowledge bases
Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma
MERT ÇALIŞAN
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. CEMAL OKAN ŞAKAR
Tez No
179730
Yapay bağışıklık sistemlerini kullanarak türkçe metinlerde tür, yazar ve cinsiyet tanıma
Genre, author and gender recognition in turkish texts using artificial immune systems
ZAFER KABAN
Yüksek Lisans
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. BANU DİRİ
Tez No
728665
Soru yanıtlama sistemleri için hibrid makine öğrenmesi tekniklerine dayalı bir yöntem tasarımı ve gerçekleştirimi
The design and implementation of a method for question answering systems based on hybrid machine learning techniques
SİNEM ÇINAROĞLU
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
Tez No
478447
Multilevel sentiment analysis in Arabic
Arapça için çok düzeyli duygu analizi
AHMED NASSAR
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EBRU AKÇAPINAR SEZER

Geri Dön