Feature selection for sentiment analysis in turkish texts
Türkçe metinlerde duygu analizi için nitelik seçimi
- Tez No: 424224
- Danışmanlar: DOÇ. DR. SELMA AYŞE ÖZEL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 127
Özet
Duygu analizi yorum belgelerinde ifade edilen duygunun sınıflandırılmasıdır. Diğer bütün sınıflandırma işlevlerinde olduğu gibi, veri önişleme, nitelik seçimi ve metin sınıflandırma adımlarından oluşur. Bu çalışmanın amaçlarından biri, Türkçe yorumların duygu analizinde çeşitli veri önişleme kombinasyonlarının incelenmesi ve hangi nitelik seçimi yöntemleri ile etkin sonuçlar elde edildiğinin araştırılmasıdır. Bir diğer amacımız ise duygu analizindeki en değerli niteliklerin seçiminde yeni bir nitelik seçimi yönteminin önerilmesidir. Duygu analizi için kullanılan Ki-kare, Information Gain, Document Frequency Difference ve Optimal Orthogonal Centroid gibi nitelik seçimi yöntemleri ile duygu analizi sürecinin doğruluk ve verimlilik özelliklerini geliştirmek hedeflenmiştir. Ayrıca bu yöntemlerle önerdiğimiz yeni nitelik seçimi yöntemi karşılaştırılmıştır. Deneyler için yaygın olarak kullanılan dört sınıflandırıcı tercih edilmiştir: Naïve Bayes Multinomial, Destek Vektör Makineleri, Logistic Regression ve Karar Ağacı. Türkçe yorumların analizinde belirli noktalama işaretlerini ve etkisiz kelimeleri nitelik olarak tutmanın olumlu katkı sağladığını ve kullandığımız nitelik seçim yöntemleriyle de daha iyi sonuçlar elde etmeye katkı sağladığını gözlemledik. Ayrıca dört temel terim ağırlıklandırma yöntemlerinin duygu analizi üzerindeki etkileri incelenmiştir. Bu yöntemlerin farklı nitelik seçimi yöntemleri üzerindeki etkileri ve bu yöntemlerin azaltılmış nitelikler ile nasıl sonuç verdikleri incelenerek analiz edilmiştir. Sonuç olarak, Türkçe yorumlar üzerine uygulanan deneyler, İngilizce yorumlar üzerinde de uygulanmış ve farklılıklar incelenmiştir.
Özet (Çeviri)
Sentiment analysis is the classification of sentiments expressed in review documents. Like other classification tasks, it involves data preprocessing, feature selection, and classification steps. One aim of this study is to determine which preprocessing combinations and feature selection methods are effective for the sentiment analysis of Turkish reviews. Another aim is to propose a new feature selection method that helps identify the most valuable features for sentiment analysis. We consider several major feature selection methods, including Chi-square, Information Gain, Document Frequency Difference, and Optimal Orthogonal Centroid so that we can improve both the accuracy and efficiency of the sentiment analysis process and compare the performance of our new proposal. Experiments are conducted using four commonly used classifiers: Naïve Bayes Multinomial, Support Vector Machines, Logistic Regression, and Decision Trees. We find that keeping certain punctuation marks and stop words is helpful for Turkish reviews, and using feature selection methods of Chi-square, Information Gain, and Document Frequency Difference with Naïve Bayes Multinomial classifier tends to give us better results. Our proposed method achieves better classification performance with respect to the other methods. We further consider four common term weighting methods and investigate their effects on the sentiment analysis. We also try these weighting methods with different feature selection methods and examine how these term weighting methods respond to the reduced text representation. Finally, similar experiments are conducted on English reviews in order to compare their differences with Turkish reviews.
Benzer Tezler
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Doğal dil işleme yöntemleriyle Türkçe sosyal medya verileri üzerinde duygu analizi
Sentiment analysis with natural language processing methods on Turkish social media data
İLKAY YELMEN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. METİN ZONTUL
- Twitter verisi üzerinde Covid-19'a karşı etkili olan ilaçların doğal dil işleme kullanılarak analizi
Analysis of drugs effective against Covid-19 using natural language processing on Twitter data
ORHAN TALHA KUM
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEFER BADAY
- Makine öğrenmesi teknikleri ile sosyal medya kullanımı üzerine bir duygu analizi çalışması
A study on sentiment analysis on social media using machine learning techiques
MOHAMED GUMA IBRAHIM BODEA
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKastamonu ÜniversitesiMalzeme Bilimi ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İSMAİL YILDIZ