Sentiment analysis and classification of tweets based on machine learning
Makine öğrenimine göre tweetlerin duygu analizi ve sınıflandırılması
- Tez No: 751870
- Danışmanlar: DR. ÖĞR. ÜYESİ DURSUN EKMEKCİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Karabük Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Duygu analizi, insanların düşünceleri, duyguları ve tutumları hakkında bilgi almak için Twitter gibi çevrimiçi forumlarda madencilik yapmak için kullanılan bir tekniktir. Bir çalışma kaynağı olarak popülerlik kazanmıştır. Geleneksel duygu analizi, çoğunlukla metinsel verilere odaklanır. Twitter, kullanıcıların çeşitli konularda kısa mesajlar (“tweetler”olarak adlandırılır) gönderdiği en iyi bilinen mikro blog sosyal ağ hizmetidir. Son yıllarda, siyasi kampanyaları, ürün kalitesini ve duygu analizini iyileştirmek için Twitter verileri kullanıldı. Bu çalışma, bu kuruluşlar için duygu analizine yardımcı olması için bir makine öğrenimi sınıflandırıcısının kullanımını önermektedir. Tweetlerin içeriğine ve tonuna göre, tweetler olumlu, olumsuz ve nötr olmak üzere üç kategoriye ayrıldı. Çıkarılan Twitter verileri, Terim Frekansları ve Ters Belge Frekansları (TF-IDF) gibi özellik çıkarma algoritmaları kullanılırken sınıflandırma doğruluğunu sağlamak için 11 aşamada ön işleme tabi tutulmuştur. Bu sonuçlara göre, topluluk sınıflandırıcıları, topluluk olmayan sınıflandırıcılardan daha iyi performans göstermektedir. Testlere göre, makine öğrenmesi öznitelik çıkarma yöntemi olarak TF-IDF kullanılarak sınıflandırıcılar geliştirilebilir. Word'den Vektöre (W2V) özellik çıkarma işlemi, TF-IDF özellik çıkarma işleminden daha az verimlidir. TF-IDF ve The Bag of Words (BoW) daha sonra konuşlandırılan sözlük tabanlı teknikler olarak seçildi. Sonuçlara dayalı olarak, bölgeye dayalı Twitter duygu analizi için en iyi kategorize edilmiş yöntemleri göstermek için beş makine öğrenimi modeli kullanılmıştır. Sonuç olarak, Ekstra Ağaçlar sınıflandırıcısı, performans açısından TF-IDF özelliği için BoW ve doğrusal sınıflandırıcılardan daha iyi performans gösterdi. Lojistik regresyon kullanarak, sağlanan sınıflandırıcılar benzerlerinden (LR) daha iyi performans gösterdi. Sonuç değerlendirme performansı, 0,6133 F1 puanı ve 0,9616 doğruluk olmuştur.
Özet (Çeviri)
Sentiment analysis is a technique for mining online forums like Twitter for information about people's thoughts, feelings, and attitudes. It has grown in popularity as a source of study. Conventional sentiment analysis focuses mostly on textual data. Twitter is the most well-known micro-blogging social networking service, where users send out short messages (called“tweets”) on a variety of subjects. In recent years, Twitter data has been utilized to improve political campaigns, product quality, and sentiment analysis. This study proposes the use of a machine learning classifier to assist in sentiment analysis for these organizations. Based on the content and tone of the tweets, tweets were classified into three categories: positive, negative, and neutral. Extracted Twitter data has been preprocessed in 11 stages in order to ensure classification accuracy when using feature extraction algorithms such as Term Frequencies and Inverse Document Frequencies (TF-IDF). According to these results, ensemble classifiers outperform non-ensemble classifiers. According to tests, machine learning Classifiers may be improved by using TF-IDF as a feature extraction method. The Word to Vector (W2V) feature extraction process is less efficient than the TF-IDF feature extraction process. TF-IDF and the Bag of Words (BoW) were then picked as lexicon-based techniques deployed. Based on the results five machine learning models have been used to illustrate the best-categorized methods for region-based Twitter sentiment analysis. As it turned out, the Extra Trees classifier outperformed the BoW and linear classifiers for the TF-IDF feature in terms of performance. Using logistic regression, the provided classifiers outperformed their counterparts (LR). The results evaluation performance has been the F1 score of 0.6133 and an accuracy of 0.9616.
Benzer Tezler
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Derin öğrenme yöntemleriyle sosyal medya analizi ve kullanıcı temsili
Social media analysis and user representation with deep learning methods
İBRAHİM RIZA HALLAÇ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GALİP AYDIN
- Doğal dil işleme ile Türkçe içerikli paylaşımlardan sosyal medya kullanıcılarının duygu analizi
Sentiment analysis of social medial users from Turkish content with natural language processing
ÇAĞLA BALLI
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET SERDAR GÜZEL
- Büyük veri üzerinde duygu analizi yöntemleri ve Azerbaycan diline uygulanması
Sentiment analysis methods on big data and application to Azerbaijan language
HUSEYN HASANLI
- Election prediction with machine learning
Makine öğrenmesi ile seçim tahmini
EYYÜP YETKİN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATİH VEHBİ ÇELEBİ