Geri Dön

Kelime gömme yaklaşımlarının iadesiz torbalanmasına dayanan uzun kısa süreli bellek mimarisi ve metin sınıflandırmasına uygulanması

Long-short term memory architecture based on non-returnable baggigng of word embedding approaches and an application to text classification

  1. Tez No: 830420
  2. Yazar: MUHAMMET OĞUZHAN YALÇIN
  3. Danışmanlar: DOÇ. DR. NEVİN GÜLER DİNCER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Muğla Sıtkı Koçman Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Metin sınıflandırma, doğal dil işlemenin temel uygulama alanlarından biridir. Metin sınıflandırma, metin verilerini sahip oldukları ayırt edici özellikler dikkate alınarak önceden belirlenen bir sınıfa atama süreci olarak tanımlanabilir. Duygu analizi, istenmeyen e-postaların tespit edilmesi, soru cevaplama, hastalık belirtilerine göre ilaç önerimi, haberleri içeriklerine göre kategorize etme gibi birçok problemin çözümü için metin sınıflandırmadan yararlanılmaktadır. Metin sınıflandırma, her biri sınıflandırma performansı üzerinde önemli etkiye sahip üç temel adımdan oluşmaktadır: i) metin önişleme, ii) özellik çıkarımı ve iii) sınıflandırma. Metin önişleme adımında, metin, gerekli olmayan kelime ve özel karakterlerden arındırma, kelime bölümleme, kelime kodlama gibi işlemlerden geçerek özellik çıkarım adımına hazır hale getirilir. Özellik çıkarım adımında, kelimeler sınıflandırma yöntemlerinin gerektirdiği sayısal verilere dönüştürülür. Word2vec, GloVe, FastText gibi kelime gömme yaklaşımları, kelimeler arasındaki bağlamsal ilişkileri, kelimelerin sözdizimsel ve semantik anlamlarını yakalayabilme yeteneklerinden dolayı literatürde yaygın olarak kullanılmaktadır. Metin sınıflandırmanın son aşaması, sayısallaştırılmış metinler ile sınıf etiketleri arasındaki ilişkiyi açıklayan sınıflandırıcının tahmin edilmesidir. Bu adım için kullanılan yöntemleri geleneksel makine öğrenmesi yöntemleri ve derin öğrenme dayalı yöntemler olarak iki ana başlık altında toplamak mümkündür. K-en yakın komşuluk, destek vektör makineleri, naive bayes, karar ağaçları metin sınıflandırmasında kullanılan geleneksel makine öğrenmesi yöntemlerine örnek olarak verilebilir. Benzer şekilde LSTM, CNN, RNN ve GRU gibi derin öğrenme mimarileri de metin sınıflandırmasında kullanılan ve oldukça başarılı sonuçlar üreten yöntemler arasındadır. Bu tez çalışmasının 3 ana amacı mevcuttur. Birincisi, Word2vec, GloVe ve FastText kelime gömme yaklaşımlarının sınıflandırma başarılarını karşılaştırmaktır. İkinci amacı kelime gömme yaklaşımlarının birleştirilmiş versiyonlarının sınıflandırma performansı üzerindeki etkisini araştırmaktır. Tezin son amacı ise, metin sınıflandırması için kelime gömme yaklaşımlarından elde edilen ağırlıklarının iadesiz torbalanmasına ve LSTM derin öğrenme mimarilerine dayanan yeni bir yaklaşım önermektir. Önerilen yöntemin temel amacı, geleneksel torbalama yöntemlerine benzer olarak, varyansı ve aşırı uyumu azaltmak ve birden fazla tahmin edicinin sonuçlarını birleştirerek sınıflandırma performansını iyileştirmektedir. Önerilen yaklaşımın performansını değerlendirmek amacıyla 4 farklı veri setine 28 farklı versiyonu uygulanmış ve sonuçlar Doğruluk, F ve Hassasiyet ölçüleri kullanılarak karşılaştırılmıştır. Karşılaştırmalar sonucunda, önerilen yöntemin sınıflandırma sonuçlarını iyileştirdiği sonucuna varılmıştır.

Özet (Çeviri)

Text classification is one of the main application fields of natural language processing. Text classification can be defined as the process of assigning text data to a predetermined class based on their distinctive features. Text classification is utilized for solving many problems such as sentiment analysis, detecting spam, answering questions, recommending drug according to disease symptoms, categorizing news according to their content. Text classification consists of three basic steps, each of which has a significant impact on classification performance: i) text preprocessing, ii) feature extraction, and iii) classification. In the text preprocessing step, the text is made prepared for the feature extraction step by going through processes such as removing stopwords and special characters, word segmentation, word encoding. In the feature extraction step, the words are converted into numerical data required by the classification methods. Word embedding approaches such as Word2vec, GloVe, FastText are widely used in the literature due to their ability to capture the contextual relationships between words and their syntactic and semantic meanings. The final stage of text classification is to predict a classifier, which describes the relationship between the digitized texts and the class labels. It is possible to collect the methods used for this step under two main titles as traditional machine learning methods and methods based on deep learning. K-nearest neighbors, support vector machines, naive bayes, decision trees are examples of traditional machine learning methods used in text classification. Similarly, deep learning architectures such as LSTM, CNN, RNN and GRU are among the methods used in text classification and producing very successful results. This thesis has three main objectives. The first is to compare the classification success of Word2vec, GloVe and FastText word embedding approaches. The second objective is to investigate the effect of combined versions of word embedding approaches on classification performance. The final objective of the thesis is to propose a new approach based on bagging without replacement of weights obtained from word embedding approaches and LSTM deep learning architectures for text classification. The main objective of the proposed method is to reduce variance and overfitting and to improve classification performance by combining the results of multiple classifiers, similar to traditional bagging methods. In order to evaluate the performance of the proposed approach, 28 different versions were applied to 4 different data sets and the results were compared using the Accuracy, F and Precision measures. As a result of the comparisons, it has been concluded that the proposed method improves the classification results.

Benzer Tezler

  1. Farklı kelime gömme yaklaşımlarının akademik makalelerden anahtar kelime çıkarımındaki performansının analizi

    Performance analysis of various word embeddings for keyword extraction techniques from academic articles

    GHAITH M I ASHQAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALEV MUTLU

  2. Study of word embedding rules and machine learning based text classification

    Kelime gömme kuralları ve metin sınıflandırması tabanlı makine öğrenme üzerine bir çalışma

    ASMAA AL-GARTANEE

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı

    PROF. DR. ALOK MISHRA

    YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Detection of precursor and mature miRNAs by employing deep learning methods: DeepMirFinder

    Derin öğrenme yöntemleri kullanılarak öncü ve olgun miRNA'ların tespiti: DeepMirFinder

    SEYEDEHSADAF ASFA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    BiyolojiDokuz Eylül Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ATHANASIA PAVLOPOULOU

  5. Suicidal ideation detection from social media

    Sosyal medya içeriğinden intihar düşüncesi algılama

    ÖZAY EZERCELİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAHİM DEHKHARGHANİ