Dengesiz veri kümelerinde duygu analizi

Sentiment analysis in imbalanced datasets

PDF İndir

Tez No: 689103
Yazar: HAMDİ ATACAN OĞUL
Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Doğuş Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 92

Özet

Bu tez çalışmasında son yıllarda popülerlik gösteren ve analizinin yapılmasının müşteri geri bildirimlerini anlamak açısından çok önemli olan duygu analizi konusunda, gerçek hayat verileri ile çalışırken karşılaşılan dengesiz veri setlerinin ortaya çıkardığı problemlere değinilmiş olup, bu konuda güvenilir ve tutarlı sonuç alabilmek için literatürde en çok önerilen çözüm yöntemleri olan, örneklem arttırma ve örneklem azaltma temeline dayalı olan yöntemler incelenmiştir. Bu yöntemlerin veri kümelerinin dengeli hale getirilme performansları, sonuçlara olan olumlu ve olumsuz etkileri yapılan çalışmalar ve deneylerle ortaya konulmuştur. Çalışma kapsamında gündelik yaşamdan derlenen sosyal medya verilerinden oluşan, hem Türkçe hem İngilizce metin verilerinden oluşan 3 farklı duygu analizi veri kümesi üzerinde çalışmalar yapılmıştır. Veri kümeleri üzerinde kelime tabanlı N-gram yapıları kullanılarak, örneklem arttırma için ROS ve SMOTE, örneklem azaltma için RUS ve NM1 algoritmaları uygulanmıştır. Ardından lojistik regresyon sınıflandırıcısı ve destek vektörleri makineleri üstündeki etkileri gözlemlenerek analiz edilmiştir. Sonuç olarak lojistik regresyon için örneklem arttırma yöntemlerinin gözlemleri karşılaştırılıp, RUS ve SMOTE yöntemleri için tüm N-gram deney değerleri için başarım sağlandığı gözlemlenmiştir. Benzer bir başarım değeri ise destek vektörleri makineleri için ise sadece belli veri kümeleri özelinde ortaya çıkmıştır. Örnek azaltma yöntemlerinde ise kullanılan RUS ve NM1 algoritmaları için, tüm kullanılan N-gram değeri için hem lojistik regresyon hem de destek vektörleri makineleri için başarım değerinin düştüğü sonucu ortaya çıkmış ve sonuçlar ayrıntı ile açıklanmıştır.

Özet (Çeviri)

In this thesis, in the subject of sentiment analysis, which has become popular in recent years and its analysis is very important for understanding customer feedback, the problems caused by unbalanced data sets when working with real life data are discussed. In order to get reliable and consistent results on this issue, the methods that are the most recommended solution methods in the literature, based on sample increase and sample reduction were examined. Balancing performances of data sets of these methods and their positive and negative effects on the results have been demonstrated by controlled experiments. Within the scope of the study, 3 different sentiment analysis data sets consisting of social media data compiled from daily life and both Turkish and English text data were studied. Using word-based N-gram structures on the data sets, ROS and SMOTE algorithms for oversampling and RUS and NM1 algorithms for undersampling were applied. Then, the logistic regression classifier and support vectors machine algorithms were analyzed by observing in their effects. As a result, by comparing the observations of the sampling methods for logistic regression, it was observed that increasing the performance was achieved for all N-gram test values for the RUS and SMOTE methods. A similar performance occurred only for certain data sets for support vector machines. For the RUS and NM1 algorithms used in undersampling methods, it was found that the performance value for both logistic regression and support vector machines for all used N-grams decreased and the results were explained in detail.

Benzer Tezler

Tez No
841731
Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi
An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis
MUSTAFA YAVAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN
Tez No
574626
Metin madenciliği yöntemleri ile e-ticaret markalarına yönelik sosyal medya yorumlarının analizi
Analysis of social media comments an e-commerce brands with text mining methods
NURFER IŞIK
Yüksek Lisans
Türkçe
2019
İşletme Marmara Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. ÖZGÜR ÇAKIR
Tez No
523736
Kelime kullanım oranları ve kullanıcı istatistikleri kullanılarak Türkçe Twitter verisi üzerinde duygu analizi
Sentiment analysis on Turkish Twitter data using term usage rates and user statistics
CEM GÜMÜŞ
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELİM AKYOKUŞ
Tez No
717935
Learning transferability of cognitive tasks by graph generation for brain decoding
Beyin çözümlemesi için bilişsel görevlerin aktarılabilirliğinin grafik üretimi ile öğrenimi
BİLGİN COŞKUN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ TUNAY YARMAN VURAL
Tez No
682118
Transfer learning based facial emotion recognition and action unit detection
Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti
SÜLEYMAN ENGİN BAĞLAYİCİ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE

Geri Dön