Geri Dön

Dengesiz veri kümelerinde duygu analizi

Sentiment analysis in imbalanced datasets

  1. Tez No: 689103
  2. Yazar: HAMDİ ATACAN OĞUL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Bu tez çalışmasında son yıllarda popülerlik gösteren ve analizinin yapılmasının müşteri geri bildirimlerini anlamak açısından çok önemli olan duygu analizi konusunda, gerçek hayat verileri ile çalışırken karşılaşılan dengesiz veri setlerinin ortaya çıkardığı problemlere değinilmiş olup, bu konuda güvenilir ve tutarlı sonuç alabilmek için literatürde en çok önerilen çözüm yöntemleri olan, örneklem arttırma ve örneklem azaltma temeline dayalı olan yöntemler incelenmiştir. Bu yöntemlerin veri kümelerinin dengeli hale getirilme performansları, sonuçlara olan olumlu ve olumsuz etkileri yapılan çalışmalar ve deneylerle ortaya konulmuştur. Çalışma kapsamında gündelik yaşamdan derlenen sosyal medya verilerinden oluşan, hem Türkçe hem İngilizce metin verilerinden oluşan 3 farklı duygu analizi veri kümesi üzerinde çalışmalar yapılmıştır. Veri kümeleri üzerinde kelime tabanlı N-gram yapıları kullanılarak, örneklem arttırma için ROS ve SMOTE, örneklem azaltma için RUS ve NM1 algoritmaları uygulanmıştır. Ardından lojistik regresyon sınıflandırıcısı ve destek vektörleri makineleri üstündeki etkileri gözlemlenerek analiz edilmiştir. Sonuç olarak lojistik regresyon için örneklem arttırma yöntemlerinin gözlemleri karşılaştırılıp, RUS ve SMOTE yöntemleri için tüm N-gram deney değerleri için başarım sağlandığı gözlemlenmiştir. Benzer bir başarım değeri ise destek vektörleri makineleri için ise sadece belli veri kümeleri özelinde ortaya çıkmıştır. Örnek azaltma yöntemlerinde ise kullanılan RUS ve NM1 algoritmaları için, tüm kullanılan N-gram değeri için hem lojistik regresyon hem de destek vektörleri makineleri için başarım değerinin düştüğü sonucu ortaya çıkmış ve sonuçlar ayrıntı ile açıklanmıştır.

Özet (Çeviri)

In this thesis, in the subject of sentiment analysis, which has become popular in recent years and its analysis is very important for understanding customer feedback, the problems caused by unbalanced data sets when working with real life data are discussed. In order to get reliable and consistent results on this issue, the methods that are the most recommended solution methods in the literature, based on sample increase and sample reduction were examined. Balancing performances of data sets of these methods and their positive and negative effects on the results have been demonstrated by controlled experiments. Within the scope of the study, 3 different sentiment analysis data sets consisting of social media data compiled from daily life and both Turkish and English text data were studied. Using word-based N-gram structures on the data sets, ROS and SMOTE algorithms for oversampling and RUS and NM1 algorithms for undersampling were applied. Then, the logistic regression classifier and support vectors machine algorithms were analyzed by observing in their effects. As a result, by comparing the observations of the sampling methods for logistic regression, it was observed that increasing the performance was achieved for all N-gram test values for the RUS and SMOTE methods. A similar performance occurred only for certain data sets for support vector machines. For the RUS and NM1 algorithms used in undersampling methods, it was found that the performance value for both logistic regression and support vector machines for all used N-grams decreased and the results were explained in detail.

Benzer Tezler

  1. Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi

    An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis

    MUSTAFA YAVAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYSUN GÜRAN

  2. Metin madenciliği yöntemleri ile e-ticaret markalarına yönelik sosyal medya yorumlarının analizi

    Analysis of social media comments an e-commerce brands with text mining methods

    NURFER IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İşletmeMarmara Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ÖZGÜR ÇAKIR

  3. Kelime kullanım oranları ve kullanıcı istatistikleri kullanılarak Türkçe Twitter verisi üzerinde duygu analizi

    Sentiment analysis on Turkish Twitter data using term usage rates and user statistics

    CEM GÜMÜŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SELİM AKYOKUŞ

  4. Learning transferability of cognitive tasks by graph generation for brain decoding

    Beyin çözümlemesi için bilişsel görevlerin aktarılabilirliğinin grafik üretimi ile öğrenimi

    BİLGİN COŞKUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FATOŞ TUNAY YARMAN VURAL

  5. Transfer learning based facial emotion recognition and action unit detection

    Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti

    SÜLEYMAN ENGİN BAĞLAYİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE