Text classification based on organizational data using machine learning
Makine öğrenmesi kullanarak kurumsal verilere dayalı metin sınıflandırma
- Tez No: 617139
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ERCAN TOPCU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Çevrim içi platformların kullanımının yaygınlaşması ile birlikte metin verilerinin artması ve bu verilere erişimin kolaylaşması metin sınıflandırma alanında yapılan çalışmaların sayısının çoğalmasına vesile olmuştur. İstenmeyen e-postaların tespiti ve duygu analizi gibi birçok alanda metin sınıflandırma tekniklerinin büyük katkısı bulunmaktadır. Bu tez kapsamında, Türkçe metin sınıflandırma üzerinde çalışılmıştır. Metin sınıflandırma ile ilgili İngilizce birçok araştırma olmasına karşın, bu alanda Türkçe veriler üzerinde yapılan çalışmalar oldukça azdır. Bu çalışmada, bir organizasyona gelen şikayet mektupları eğitim verisi olarak kullanılmıştır. Şikayet mektupları ilgili konular ile etiketli bir şekildedir. Bu konular verilerin alındığı organizasyonun kendi iç süreçlerinde tanımladığı konulardır. İncelenen şikayet mektupları direkt olarak kullanıcıdan geldiğinden dolayı çok fazla yazım yanlışı içermektedir. Bu yazım yanlışlarını düzeltmek için metin verileri üzerinde normalizasyon işlemi uygulanmıştır. Daha sonra veriler üzerinde biçimbilimsel analiz uygulanarak külliyat içerisinde bulunan kelimeler yalın hale getirilmiştir. Ayrıca en sık tekrar eden kelime gruplarına bakılarak etkisiz kelimeler listesi oluşturulmuş ve etkisiz kelime olarak görülen sözcükler temizlenmiştir. Son olarak ön işleme adımında veri kümesinde tekrar eden sınıflar K-Means algoritması ile sadeleştirilmiştir. Bu sayede daha dengeli ve mantıklı bir veri kümesi oluşturulmuştur. Gelen şikayet mektupları ön işlemeden önce ve sonra Naïve Bayes, SVM, Random Forest, Logistic Regression ve LSTM ile eğitilmiştir. Ön işleme öncesi ve sonrası algoritmaların performansları kıyaslanmıştır. Sonuç olarak, doğru tahmin etme açısından en verimli çalışan algoritmanın LSTM olduğu görülmüştür. Ayrıca kurumların geliştirilen modelden faydalanması ve verilerin arttırılması amacı ile SaaS modeli geliştirilmiştir.
Özet (Çeviri)
The increase in text data coming with the increase in the use of online platforms and the ease of access to this data have led to the increase in the number of studies on text classification. Text classification has had a great impact on such fields as spam mail detection, sentiment analysis and news categorization. Our concern in this study is Turkish text classification. While there are a lot of English papers related to text classification, the number of the studies on Turkish data is quite limited. In this study, the letters of request that came to an organization were used as the experimental dataset. These letters of request are labeled with classes. These classes are predefined in the internal processes of the organization from which the data is received. Because the letters of request used in the study came directly from the users, they contain a lot of misspellings. To correct these mistakes, normalization was applied on the text data. Then, the words in the corpus were transformed into their simple forms by morphological analysis. In addition, the list of stop words was prepared by looking at the most repetitive word groups, and they were removed. Lastly, in the preprocessing step, the repetitive classes in the corpus were simplified via the K-Means algorithm and the number of the classes was reduced. As a result, a more consistent and balanced dataset appeared. The letters of request were trained by Naïve Bayes, SVM, Random Forest, Logistic Regression and LSTM before and after preprocessing. Then, the performance of the algorithms before and after preprocessing was compared. It was concluded that the most efficient algorithm with regard to accuracy is LSTM. Moreover, the model of SaaS was developed for the organizations to benefit from the machine learning model and for increasing the data.
Benzer Tezler
- Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması
Automatic classification of help tickets in user support systems
MÜCAHİT ALTINTAŞ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Derin öğrenme yöntemleriyle evrak sınıflandırılması
Classification of documents by deep learning methods
GÖZDE DEMİREL
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RECEP ERYİĞİT
- Kurumsal kaynak planlama yazılımlarında yapay zeka teknikleri kullanılarak kullanıcı destek sistemine yönelik model tasarımı ve geliştirilmesi
Model design and development for user support system using artificial intelligence techniques in enterprise resource planning software
HAKAN AŞAN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. VAHAP TECİM
- Corpus-based semantic kernels for supervised and semi-supervised text classification
Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler
AYŞE BERNA ALTINEL
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. MURAT CAN GANİZ
- Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım
A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization
MELTEM AKSOY
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEDA YANIK ÖZBAY
PROF. DR. MEHMET FATİH AMASYALI