Dengesiz veri kümelerinde duygu analizi
Sentiment analysis in imbalanced datasets
- Tez No: 689103
- Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Doğuş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Bu tez çalışmasında son yıllarda popülerlik gösteren ve analizinin yapılmasının müşteri geri bildirimlerini anlamak açısından çok önemli olan duygu analizi konusunda, gerçek hayat verileri ile çalışırken karşılaşılan dengesiz veri setlerinin ortaya çıkardığı problemlere değinilmiş olup, bu konuda güvenilir ve tutarlı sonuç alabilmek için literatürde en çok önerilen çözüm yöntemleri olan, örneklem arttırma ve örneklem azaltma temeline dayalı olan yöntemler incelenmiştir. Bu yöntemlerin veri kümelerinin dengeli hale getirilme performansları, sonuçlara olan olumlu ve olumsuz etkileri yapılan çalışmalar ve deneylerle ortaya konulmuştur. Çalışma kapsamında gündelik yaşamdan derlenen sosyal medya verilerinden oluşan, hem Türkçe hem İngilizce metin verilerinden oluşan 3 farklı duygu analizi veri kümesi üzerinde çalışmalar yapılmıştır. Veri kümeleri üzerinde kelime tabanlı N-gram yapıları kullanılarak, örneklem arttırma için ROS ve SMOTE, örneklem azaltma için RUS ve NM1 algoritmaları uygulanmıştır. Ardından lojistik regresyon sınıflandırıcısı ve destek vektörleri makineleri üstündeki etkileri gözlemlenerek analiz edilmiştir. Sonuç olarak lojistik regresyon için örneklem arttırma yöntemlerinin gözlemleri karşılaştırılıp, RUS ve SMOTE yöntemleri için tüm N-gram deney değerleri için başarım sağlandığı gözlemlenmiştir. Benzer bir başarım değeri ise destek vektörleri makineleri için ise sadece belli veri kümeleri özelinde ortaya çıkmıştır. Örnek azaltma yöntemlerinde ise kullanılan RUS ve NM1 algoritmaları için, tüm kullanılan N-gram değeri için hem lojistik regresyon hem de destek vektörleri makineleri için başarım değerinin düştüğü sonucu ortaya çıkmış ve sonuçlar ayrıntı ile açıklanmıştır.
Özet (Çeviri)
In this thesis, in the subject of sentiment analysis, which has become popular in recent years and its analysis is very important for understanding customer feedback, the problems caused by unbalanced data sets when working with real life data are discussed. In order to get reliable and consistent results on this issue, the methods that are the most recommended solution methods in the literature, based on sample increase and sample reduction were examined. Balancing performances of data sets of these methods and their positive and negative effects on the results have been demonstrated by controlled experiments. Within the scope of the study, 3 different sentiment analysis data sets consisting of social media data compiled from daily life and both Turkish and English text data were studied. Using word-based N-gram structures on the data sets, ROS and SMOTE algorithms for oversampling and RUS and NM1 algorithms for undersampling were applied. Then, the logistic regression classifier and support vectors machine algorithms were analyzed by observing in their effects. As a result, by comparing the observations of the sampling methods for logistic regression, it was observed that increasing the performance was achieved for all N-gram test values for the RUS and SMOTE methods. A similar performance occurred only for certain data sets for support vector machines. For the RUS and NM1 algorithms used in undersampling methods, it was found that the performance value for both logistic regression and support vector machines for all used N-grams decreased and the results were explained in detail.
Benzer Tezler
- Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi
An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis
MUSTAFA YAVAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN
- Metin madenciliği yöntemleri ile e-ticaret markalarına yönelik sosyal medya yorumlarının analizi
Analysis of social media comments an e-commerce brands with text mining methods
NURFER IŞIK
- Kelime kullanım oranları ve kullanıcı istatistikleri kullanılarak Türkçe Twitter verisi üzerinde duygu analizi
Sentiment analysis on Turkish Twitter data using term usage rates and user statistics
CEM GÜMÜŞ
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELİM AKYOKUŞ
- Learning transferability of cognitive tasks by graph generation for brain decoding
Beyin çözümlemesi için bilişsel görevlerin aktarılabilirliğinin grafik üretimi ile öğrenimi
BİLGİN COŞKUN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ TUNAY YARMAN VURAL
- Transfer learning based facial emotion recognition and action unit detection
Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti
SÜLEYMAN ENGİN BAĞLAYİCİ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE