Geri Dön

Geleneksel makine öğrenimi algoritmaları ile ön eğitimli dil modellerinin duygu analizi uygulamasındaki performanslarının incelenmesi

Examination of the performance of traditional machine learning algorithms and pretrained language models in sentiment analysis application

  1. Tez No: 958153
  2. Yazar: AYŞE KARLIDAĞ SÜZER
  3. Danışmanlar: DOÇ. DR. ÜLVİYE HACIZADE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Haliç Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Bu çalışma, metin verilerinin duygu durumlarını anlamak için hangi yöntemlerin etkili olduğunu belirlemeyi amaçlamaktadır. Bu bağlamda çalışmada geleneksel makine öğrenmesi algoritmaları ile ön eğitimli dil modellerinin performansı detaylı bir şekilde incelenmiş ve karşılaştırılmıştır. Çalışma kapsamında Naive Bayes (NB), Karar Ağacı (KA), Rastgele Orman (RO), Destek Vektör Makineleri (DVM), Lojistik Regresyon (LR), K-Nearest Neighbors (KNN) ve Gradyan Artırma (GA) gibi geleneksel makine öğrenmesi algoritmaları ile BERT (Bidirectional Encoder Representations from Transformers), ALBERT (A Lite BERT), DistilBERT (Distilled BERT) ve RoBERTa (Robustly optimized BERT approach) gibi ön eğitimli dil modellerinin performansları değerlendirilmiştir. Çalışmanın ilk aşamasında duygu analizi uygulanacak veri seti ön işleme sürecinden geçirilerek eğitim ve test verisi şeklinde bölünmüştür. Bir sonraki aşamada her bir makine öğrenmesi algoritması eğitim veri seti üzerinde eğitilmiş ve test verisi üzerindeki performansı incelenmiştir. Ayrıca önceden eğitilmiş ve açık erişimle sunulan dönüştürücü tabanlı dil modelleri doğrudan sınıflandırma sürecine entegre edilerek aynı test veri seti üzerinde performansları incelenmiştir. Çalışmada performans değerlendirmesi, doğruluk, kesinlik, geri çağırma ve F1 skoru gibi ölçütlerle detaylı bir şekilde analiz edilmiştir. Elde edilen bulgular doğrultusunda, en yüksek doğruluk ve F1 skoru DVM modeli tarafından sağlanmış olup bu model genel sınıflandırma başarısı açısından öne çıkmıştır. RoBERTa modeli ise bağlama duyarlı dil temsilleri üretme yeteneği sayesinde dikkat çekici bir performans sergilemiştir. Makine öğrenmesi algoritmaları arasında en uzun eğitim süresine DVM, en kısa eğitim süresine ise KNN algoritması ihtiyaç duymuştur. Buna karşın tüm modeller genelinde en uzun tahmin süresine dönüştürücü tabanlı ön eğitimli dil modellerinin ihtiyaç duyduğu görülmüştür. Bu doğrultuda model seçiminde yalnızca doğruluk gibi performans metriklerinin değil aynı zamanda eğitim süresi ve tahmin süresi gibi hesaplama maliyetlerine ilişkin faktörlerin de dikkate alınması gerektiği sonucuna varılmıştır.

Özet (Çeviri)

This study aims to determine which methods are effective in understanding the sentiment of text data. In this context, the performance of traditional machine learning algorithms and pretrained language models has been extensively examined and compared. Within the scope of the study, the performances of traditional machine learning algorithms such as Naive Bayes (NB), Decision Tree (DT), Random Forests (RF), Support Vector Machines (SVM), Logistic Regression, K-Nearest Neighbors (KNN), and Gradient Boosting (GB) were evaluated alongside pretrained language models including BERT (Bidirectional Encoder Representations from Transformers), ALBERT (A Lite BERT), DistilBERT (Distilled BERT), and RoBERTa (Robustly optimized BERT approach). In the initial phase of the study, the dataset to be used for sentiment analysis was subjected to a preprocessing procedure and subsequently divided into training and test sets. In the following stage, each machine learning algorithm was trained on the training set, and its performance was evaluated on the test set. Additionally, pre-trained and publicly available transformer-based language models were directly integrated into the classification process, and their performances were examined on the same test set. Performance evaluation in the study was conducted through a detailed analysis using metrics such as accuracy, precision, recall, and F1 score. Based on the findings the highest accuracy and F1 score were achieved by the SVM model, which stood out in terms of overall classification performance. The RoBERTa model also demonstrated notable performance due to its ability to generate context-sensitive language representations. Among the machine learning algorithms, SVM required the longest training time, while the KNN algorithm had the shortest. However, it was observed that transformer based pre-trained language models required the longest inference time across all models. In this context, it is concluded that model selection should not be based solely on performance metrics such as accuracy, but should also take into account computational costs, including training time and inference time.

Benzer Tezler

  1. Makina öğrenim algoritmaları ile İngilizce metin zorluk seviyelerinin sınıflandırılması: Bir yazılım önerisi

    Classification of English texts' difficulty levels through machine learning algorithms: A program recommendation

    SOMAYYEH SHABESTANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimAtatürk Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DOÇ. DR. MERVE GEÇİKLİ

  2. Comparing audio features for speech emotion recognition using machine learning algorithms

    Konuşmadan duygu çıkarımı için makine öğrenimi algoritmaları kullanılarak ses özelliklerinin karşılaştırılması

    FATMA GÜMÜŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilim ve TeknolojiMEF ÜNİVERSİTESİ

    Bilişim Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUNA ÇAKAR

  3. Development of data-drıven models for estımatıng mud and fıltrate alkalınıty usıng machıne learnıng applıcatıons

    Makine öğrenimi uygulamaları kullanarak çamur ve filtrat alkalinitesini tahmin etmek için veri odaklı modellerin geliştirilmesi

    AHMET ÖNDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İHSAN BURAK KULGA

    DR. SERCAN GÜL

  4. Condition monitoring and fault detection for electrical power systems using signal processing and machine learning techniques

    Sı̇nyal ı̇şleme ve makı̇ne öğrenme teknı̇klerı̇ kullanılarak elektrı̇k güç sı̇stemleri ı̇çı̇n durum ı̇zleme ve arıza belirleme

    YASMIN NASSER MOHAMED

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAHİN SERHAT ŞEKER

  5. Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi

    Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques

    ÖZLEM YILDIZ BUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED FATİH ADAK