A lexicon based method for subjectivity and sentiment analysis using an Arabic twitter corpus
Arapça twitter korpusu ile öznellik ve sentıment analizi için sözlük tabanlı yöntem
- Tez No: 495905
- Danışmanlar: YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Arapça duygu analizi, sözlüğe dayalı, özellik çıkarma, Özellik seçimi, KNN, Naïve Bayes, sıralaması, bilgi kazanma özelliği, Arabic sentiment analysis, lexicon-based, feature extraction, feature selection, KNN, Naïve Bayes, Ranker, information gain attribute
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Çankaya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Ana Bilim Dalı
- Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
- Sayfa Sayısı: 81
Özet
Sosyal medya için duyarlılık analizi, her alanda veri madenciliği yapmak için çok ilginç bir alandır. Bu nedenle, kullanıcılar tarafından her gün itilen büyük miktarda veriyi kapsayacak şekilde bu alanda sürekli araştırma yapılmaktadır. Arapça, sosyal medyada kullanılan on önemli dillerden biridir; Bu sebeple karar verme konusundaki ilginin her yere ihtiyacı vardır. Twitter, kullanıcılar arasındaki görüş ve fikir alışverişi için bir platform sağlar; gelecekteki kararların gelişimine ve planlanmasına yönelik bir bilgi tabanı oluşturmak için önde gelen kararlar verir. Çalişmamızda lexicon temelli yaklaşımı kullanarak sınıflamanın yüksek doğruluk derecesine sahip modellerin nasıl elde edileceğini sunuyoruz ve gösteriyoruz. Yaklaşımımız Arapça kelimeler için önişleme adımlarından başlayarak üç aşamada uygulanmaktadır. İkinci aşamada, istatistiksel ve semantik yönelimlerle ilgili daha fazla özellik çıkarılması tartışılmaktadır. Ayıklanan özelliklerin (ağırlık, puan ve olumsuzlama) açıkça yararlı olabilecek iki Arapça sözlüğün türüne nasıl bağlı olduğunu gösteriyoruz. Son olarak, üçüncü aşama, performans ölçümleri üzerinde daha fazla etkiye sahip özellikleri bulmak için Bilgi Kazanım Özellik Değerlendirme ve Sıralama yöntemi ile bir özellik seçme yöntemi uygular. Yüksek sıralamaya sahip özellikleri korur ve veri kümesinden düşük sıralamaya sahip olanları kaldırırız. Son iki aşamada, değerlendirmelerimizi, K-Nearest Neighbor ve Naive Bayes olmak üzere iki makine-öğrenme algoritması kullanarak tüm görevler için yerine getiriyoruz. Sınıflandırma doğruluğunun, Naïve Bayes sınıflandırıcısı ile skor özellikli 93.56'ya ulaştığı tespit edildi ve bu görev, seçilen iki makine öğrenme modelinden hangisinin Arapça tweetler için daha uygun olduğunu belirledi.
Özet (Çeviri)
Sentiment analysis for social media is an interesting area of data mining for decision making in various domains. Therefore, continuous research is carried out in this area to cover the huge amount of data being pushed by users. Arabic is one of the ten important languages used in social media; therefore, interest in decision making anywhere needs knowledge about this. Twitter provides a platform for the exchange of opinions and ideas among users, leading decision making to building a knowledge base towards the development and planning of future outcomes. We present and illustrate how to obtain models with a high accuracy of classification by using the Lexicon-based approach. Our approach is implemented in three phases, beginning with preprocessing steps for Arabic words. The second phase discusses the extraction of more features relating to statistical and semantic orientations. We demonstrate how the extracted features (weight, score and negation) depend on two types of Arabic lexicon being clearly useful. Finally, the third phase applies a feature selection method with the Information Gain attribute evaluation and Ranker search method to find the features that have greater impact on the performance measures. We keep the features that have high rankings and remove those that have low rankings from the dataset. In the last two phases, we carry out our evaluations for all tasks using two machine-learning algorithms, namely K-Nearest Neighbor and Naïve Bayes. The accuracy for classification was found to have reached 93.56 with the Naïve Bayes classifier with a score feature, and this task determined which one of the two selected machine-learning models is more suitable for classifying the sentiment of Arabic tweets.
Benzer Tezler
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- A scalable big data framework for analyzing batch and streaming data of social media platforms
Sosyal medya platformlarının toplu ve akış verilerini analiz etmek için ölçeklenebilir bir büyük veri çerçevesi
MOHAMED ABDULSTAR JABUR MOHAMED ALLAYLA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERKAN AYVAZ
- Istanbul walkabouts: A critical walking research of Northern Istanbul
İstanbul seferleri: Kuzey İstanbul'un eleştirel yürüme araştırması
NAZLI TÜMERDEM MEDARİC
Doktora
İngilizce
2018
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. ARZU ERDEM
PROF. DR. SİBEL BOZDOĞAN
- Sosyal ağlar üzerinde ontoloji tabanlı sezgi analizi için bir uygulama çatısının geliştirilmesi
Developing a framework for ontology based sentiment analysis on social media
KADİR TUTAR
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LEVENT TOKER
- Aspect-based sentiment analysis in Arabic for healthcare
Sağlık alanı için Arapça metinlerden özellik-tabanlı duygu durum analizi
HUNAIDA RAMADAN MOHAMMAD AWWAD
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ADİL ALPKOÇAK