Text classification based on organizational data using machine learning

Makine öğrenmesi kullanarak kurumsal verilere dayalı metin sınıflandırma

PDF İndir

Tez No: 617139
Yazar: AHMED ENİS ERKAYA
Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ERCAN TOPCU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Çevrim içi platformların kullanımının yaygınlaşması ile birlikte metin verilerinin artması ve bu verilere erişimin kolaylaşması metin sınıflandırma alanında yapılan çalışmaların sayısının çoğalmasına vesile olmuştur. İstenmeyen e-postaların tespiti ve duygu analizi gibi birçok alanda metin sınıflandırma tekniklerinin büyük katkısı bulunmaktadır. Bu tez kapsamında, Türkçe metin sınıflandırma üzerinde çalışılmıştır. Metin sınıflandırma ile ilgili İngilizce birçok araştırma olmasına karşın, bu alanda Türkçe veriler üzerinde yapılan çalışmalar oldukça azdır. Bu çalışmada, bir organizasyona gelen şikayet mektupları eğitim verisi olarak kullanılmıştır. Şikayet mektupları ilgili konular ile etiketli bir şekildedir. Bu konular verilerin alındığı organizasyonun kendi iç süreçlerinde tanımladığı konulardır. İncelenen şikayet mektupları direkt olarak kullanıcıdan geldiğinden dolayı çok fazla yazım yanlışı içermektedir. Bu yazım yanlışlarını düzeltmek için metin verileri üzerinde normalizasyon işlemi uygulanmıştır. Daha sonra veriler üzerinde biçimbilimsel analiz uygulanarak külliyat içerisinde bulunan kelimeler yalın hale getirilmiştir. Ayrıca en sık tekrar eden kelime gruplarına bakılarak etkisiz kelimeler listesi oluşturulmuş ve etkisiz kelime olarak görülen sözcükler temizlenmiştir. Son olarak ön işleme adımında veri kümesinde tekrar eden sınıflar K-Means algoritması ile sadeleştirilmiştir. Bu sayede daha dengeli ve mantıklı bir veri kümesi oluşturulmuştur. Gelen şikayet mektupları ön işlemeden önce ve sonra Naïve Bayes, SVM, Random Forest, Logistic Regression ve LSTM ile eğitilmiştir. Ön işleme öncesi ve sonrası algoritmaların performansları kıyaslanmıştır. Sonuç olarak, doğru tahmin etme açısından en verimli çalışan algoritmanın LSTM olduğu görülmüştür. Ayrıca kurumların geliştirilen modelden faydalanması ve verilerin arttırılması amacı ile SaaS modeli geliştirilmiştir.

Özet (Çeviri)

The increase in text data coming with the increase in the use of online platforms and the ease of access to this data have led to the increase in the number of studies on text classification. Text classification has had a great impact on such fields as spam mail detection, sentiment analysis and news categorization. Our concern in this study is Turkish text classification. While there are a lot of English papers related to text classification, the number of the studies on Turkish data is quite limited. In this study, the letters of request that came to an organization were used as the experimental dataset. These letters of request are labeled with classes. These classes are predefined in the internal processes of the organization from which the data is received. Because the letters of request used in the study came directly from the users, they contain a lot of misspellings. To correct these mistakes, normalization was applied on the text data. Then, the words in the corpus were transformed into their simple forms by morphological analysis. In addition, the list of stop words was prepared by looking at the most repetitive word groups, and they were removed. Lastly, in the preprocessing step, the repetitive classes in the corpus were simplified via the K-Means algorithm and the number of the classes was reduced. As a result, a more consistent and balanced dataset appeared. The letters of request were trained by Naïve Bayes, SVM, Random Forest, Logistic Regression and LSTM before and after preprocessing. Then, the performance of the algorithms before and after preprocessing was compared. It was concluded that the most efficient algorithm with regard to accuracy is LSTM. Moreover, the model of SaaS was developed for the organizations to benefit from the machine learning model and for increasing the data.

Benzer Tezler

Tez No
947073
Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
Tez No
941696
Web ve API zafiyetlerine yönelik güvenlik stratejileri ile XSS saldırılarının makine öğrenmesi yöntemleriyle tespiti
Security strategies against web and API vulnerabilities with machine learning-based detection of XSS attacks
SİMGE ŞENGÜL
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ondokuz Mayıs Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DURMUŞ ÖZKAN ŞAHİN
Tez No
384922
Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması
Automatic classification of help tickets in user support systems
MÜCAHİT ALTINTAŞ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
859507
Derin öğrenme yöntemleriyle evrak sınıflandırılması
Classification of documents by deep learning methods
GÖZDE DEMİREL
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RECEP ERYİĞİT
Tez No
954777
Predictive modeling of non-routine maintenance workload in aircraft operations: a task card-level approach using real mro data and machine learning
Uçak bakım operasyonlarında non-routıne iş yükünün öngörüsel modellemesi: gerçek mro verileri ve makine öğrenmesi ile görev kartı düzeyinde bir yaklaşım
TALHA GÜÇLÜ
Yüksek Lisans
İngilizce
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

Geri Dön