Geri Dön

Text classification based on organizational data using machine learning

Makine öğrenmesi kullanarak kurumsal verilere dayalı metin sınıflandırma

  1. Tez No: 617139
  2. Yazar: AHMED ENİS ERKAYA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ERCAN TOPCU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 84

Özet

Çevrim içi platformların kullanımının yaygınlaşması ile birlikte metin verilerinin artması ve bu verilere erişimin kolaylaşması metin sınıflandırma alanında yapılan çalışmaların sayısının çoğalmasına vesile olmuştur. İstenmeyen e-postaların tespiti ve duygu analizi gibi birçok alanda metin sınıflandırma tekniklerinin büyük katkısı bulunmaktadır. Bu tez kapsamında, Türkçe metin sınıflandırma üzerinde çalışılmıştır. Metin sınıflandırma ile ilgili İngilizce birçok araştırma olmasına karşın, bu alanda Türkçe veriler üzerinde yapılan çalışmalar oldukça azdır. Bu çalışmada, bir organizasyona gelen şikayet mektupları eğitim verisi olarak kullanılmıştır. Şikayet mektupları ilgili konular ile etiketli bir şekildedir. Bu konular verilerin alındığı organizasyonun kendi iç süreçlerinde tanımladığı konulardır. İncelenen şikayet mektupları direkt olarak kullanıcıdan geldiğinden dolayı çok fazla yazım yanlışı içermektedir. Bu yazım yanlışlarını düzeltmek için metin verileri üzerinde normalizasyon işlemi uygulanmıştır. Daha sonra veriler üzerinde biçimbilimsel analiz uygulanarak külliyat içerisinde bulunan kelimeler yalın hale getirilmiştir. Ayrıca en sık tekrar eden kelime gruplarına bakılarak etkisiz kelimeler listesi oluşturulmuş ve etkisiz kelime olarak görülen sözcükler temizlenmiştir. Son olarak ön işleme adımında veri kümesinde tekrar eden sınıflar K-Means algoritması ile sadeleştirilmiştir. Bu sayede daha dengeli ve mantıklı bir veri kümesi oluşturulmuştur. Gelen şikayet mektupları ön işlemeden önce ve sonra Naïve Bayes, SVM, Random Forest, Logistic Regression ve LSTM ile eğitilmiştir. Ön işleme öncesi ve sonrası algoritmaların performansları kıyaslanmıştır. Sonuç olarak, doğru tahmin etme açısından en verimli çalışan algoritmanın LSTM olduğu görülmüştür. Ayrıca kurumların geliştirilen modelden faydalanması ve verilerin arttırılması amacı ile SaaS modeli geliştirilmiştir.

Özet (Çeviri)

The increase in text data coming with the increase in the use of online platforms and the ease of access to this data have led to the increase in the number of studies on text classification. Text classification has had a great impact on such fields as spam mail detection, sentiment analysis and news categorization. Our concern in this study is Turkish text classification. While there are a lot of English papers related to text classification, the number of the studies on Turkish data is quite limited. In this study, the letters of request that came to an organization were used as the experimental dataset. These letters of request are labeled with classes. These classes are predefined in the internal processes of the organization from which the data is received. Because the letters of request used in the study came directly from the users, they contain a lot of misspellings. To correct these mistakes, normalization was applied on the text data. Then, the words in the corpus were transformed into their simple forms by morphological analysis. In addition, the list of stop words was prepared by looking at the most repetitive word groups, and they were removed. Lastly, in the preprocessing step, the repetitive classes in the corpus were simplified via the K-Means algorithm and the number of the classes was reduced. As a result, a more consistent and balanced dataset appeared. The letters of request were trained by Naïve Bayes, SVM, Random Forest, Logistic Regression and LSTM before and after preprocessing. Then, the performance of the algorithms before and after preprocessing was compared. It was concluded that the most efficient algorithm with regard to accuracy is LSTM. Moreover, the model of SaaS was developed for the organizations to benefit from the machine learning model and for increasing the data.

Benzer Tezler

  1. Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması

    Automatic classification of help tickets in user support systems

    MÜCAHİT ALTINTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Derin öğrenme yöntemleriyle evrak sınıflandırılması

    Classification of documents by deep learning methods

    GÖZDE DEMİREL

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. RECEP ERYİĞİT

  3. Kurumsal kaynak planlama yazılımlarında yapay zeka teknikleri kullanılarak kullanıcı destek sistemine yönelik model tasarımı ve geliştirilmesi

    Model design and development for user support system using artificial intelligence techniques in enterprise resource planning software

    HAKAN AŞAN

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. VAHAP TECİM

  4. Corpus-based semantic kernels for supervised and semi-supervised text classification

    Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler

    AYŞE BERNA ALTINEL

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

    YRD. DOÇ. DR. MURAT CAN GANİZ

  5. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI