Geleneksel makine öğrenimi algoritmaları ile ön eğitimli dil modellerinin duygu analizi uygulamasındaki performanslarının incelenmesi

Examination of the performance of traditional machine learning algorithms and pretrained language models in sentiment analysis application

PDF İndir

Tez No: 958153
Yazar: AYŞE KARLIDAĞ SÜZER
Danışmanlar: DOÇ. DR. ÜLVİYE HACIZADE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Haliç Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 76

Özet

Bu çalışma, metin verilerinin duygu durumlarını anlamak için hangi yöntemlerin etkili olduğunu belirlemeyi amaçlamaktadır. Bu bağlamda çalışmada geleneksel makine öğrenmesi algoritmaları ile ön eğitimli dil modellerinin performansı detaylı bir şekilde incelenmiş ve karşılaştırılmıştır. Çalışma kapsamında Naive Bayes (NB), Karar Ağacı (KA), Rastgele Orman (RO), Destek Vektör Makineleri (DVM), Lojistik Regresyon (LR), K-Nearest Neighbors (KNN) ve Gradyan Artırma (GA) gibi geleneksel makine öğrenmesi algoritmaları ile BERT (Bidirectional Encoder Representations from Transformers), ALBERT (A Lite BERT), DistilBERT (Distilled BERT) ve RoBERTa (Robustly optimized BERT approach) gibi ön eğitimli dil modellerinin performansları değerlendirilmiştir. Çalışmanın ilk aşamasında duygu analizi uygulanacak veri seti ön işleme sürecinden geçirilerek eğitim ve test verisi şeklinde bölünmüştür. Bir sonraki aşamada her bir makine öğrenmesi algoritması eğitim veri seti üzerinde eğitilmiş ve test verisi üzerindeki performansı incelenmiştir. Ayrıca önceden eğitilmiş ve açık erişimle sunulan dönüştürücü tabanlı dil modelleri doğrudan sınıflandırma sürecine entegre edilerek aynı test veri seti üzerinde performansları incelenmiştir. Çalışmada performans değerlendirmesi, doğruluk, kesinlik, geri çağırma ve F1 skoru gibi ölçütlerle detaylı bir şekilde analiz edilmiştir. Elde edilen bulgular doğrultusunda, en yüksek doğruluk ve F1 skoru DVM modeli tarafından sağlanmış olup bu model genel sınıflandırma başarısı açısından öne çıkmıştır. RoBERTa modeli ise bağlama duyarlı dil temsilleri üretme yeteneği sayesinde dikkat çekici bir performans sergilemiştir. Makine öğrenmesi algoritmaları arasında en uzun eğitim süresine DVM, en kısa eğitim süresine ise KNN algoritması ihtiyaç duymuştur. Buna karşın tüm modeller genelinde en uzun tahmin süresine dönüştürücü tabanlı ön eğitimli dil modellerinin ihtiyaç duyduğu görülmüştür. Bu doğrultuda model seçiminde yalnızca doğruluk gibi performans metriklerinin değil aynı zamanda eğitim süresi ve tahmin süresi gibi hesaplama maliyetlerine ilişkin faktörlerin de dikkate alınması gerektiği sonucuna varılmıştır.

Özet (Çeviri)

This study aims to determine which methods are effective in understanding the sentiment of text data. In this context, the performance of traditional machine learning algorithms and pretrained language models has been extensively examined and compared. Within the scope of the study, the performances of traditional machine learning algorithms such as Naive Bayes (NB), Decision Tree (DT), Random Forests (RF), Support Vector Machines (SVM), Logistic Regression, K-Nearest Neighbors (KNN), and Gradient Boosting (GB) were evaluated alongside pretrained language models including BERT (Bidirectional Encoder Representations from Transformers), ALBERT (A Lite BERT), DistilBERT (Distilled BERT), and RoBERTa (Robustly optimized BERT approach). In the initial phase of the study, the dataset to be used for sentiment analysis was subjected to a preprocessing procedure and subsequently divided into training and test sets. In the following stage, each machine learning algorithm was trained on the training set, and its performance was evaluated on the test set. Additionally, pre-trained and publicly available transformer-based language models were directly integrated into the classification process, and their performances were examined on the same test set. Performance evaluation in the study was conducted through a detailed analysis using metrics such as accuracy, precision, recall, and F1 score. Based on the findings the highest accuracy and F1 score were achieved by the SVM model, which stood out in terms of overall classification performance. The RoBERTa model also demonstrated notable performance due to its ability to generate context-sensitive language representations. Among the machine learning algorithms, SVM required the longest training time, while the KNN algorithm had the shortest. However, it was observed that transformer based pre-trained language models required the longest inference time across all models. In this context, it is concluded that model selection should not be based solely on performance metrics such as accuracy, but should also take into account computational costs, including training time and inference time.

Benzer Tezler

Tez No
812595
Makina öğrenim algoritmaları ile İngilizce metin zorluk seviyelerinin sınıflandırılması: Bir yazılım önerisi
Classification of English texts' difficulty levels through machine learning algorithms: A program recommendation
SOMAYYEH SHABESTANI
Yüksek Lisans
İngilizce
2023
Eğitim ve Öğretim Atatürk Üniversitesi
İngiliz Dili Eğitimi Ana Bilim Dalı
DOÇ. DR. MERVE GEÇİKLİ
Tez No
760166
Comparing audio features for speech emotion recognition using machine learning algorithms
Konuşmadan duygu çıkarımı için makine öğrenimi algoritmaları kullanılarak ses özelliklerinin karşılaştırılması
FATMA GÜMÜŞ
Yüksek Lisans
İngilizce
2022
Bilim ve Teknoloji MEF ÜNİVERSİTESİ
Bilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUNA ÇAKAR
Tez No
945192
Development of data-drıven models for estımatıng mud and fıltrate alkalınıty usıng machıne learnıng applıcatıons
Makine öğrenimi uygulamaları kullanarak çamur ve filtrat alkalinitesini tahmin etmek için veri odaklı modellerin geliştirilmesi
AHMET ÖNDER
Yüksek Lisans
İngilizce
2025
Petrol ve Doğal Gaz Mühendisliği İstanbul Teknik Üniversitesi
Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İHSAN BURAK KULGA
DR. SERCAN GÜL
Tez No
892154
Condition monitoring and fault detection for electrical power systems using signal processing and machine learning techniques
Sı̇nyal ı̇şleme ve makı̇ne öğrenme teknı̇klerı̇ kullanılarak elektrı̇k güç sı̇stemleri ı̇çı̇n durum ı̇zleme ve arıza belirleme
YASMIN NASSER MOHAMED
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAHİN SERHAT ŞEKER
Tez No
956406
Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi
Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques
ÖZLEM YILDIZ BUDAK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH ADAK

Geri Dön