Duygu analizi için yeni bir sözlük; nayalex duygu sözlüğü
A new dictionary for sentiment analysis nayalex emotion dictionary
- Tez No: 749883
- Danışmanlar: DR. ÖĞR. ÜYESİ NAGEHAN İLHAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Harran Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 62
Özet
İletişimde karşımıza farklı şekillerde (yüz ifadeleri, jestler, konuşma vb.) ortaya çıkan duygularda birçok bilgi gizlidir. Kişiler duygu ve düşüncelerini sosyal medya platformlarında çoğu zaman metinsel ifadeler ile ifade etmektedirler. Sosyal medya paylaşımları incelenerek insanların duygu durumları elde edilebilmektedir. Paylaşımda bulunan kişinin kişilik özelliklerinin ortaya çıkarılması önem kazanmıştır ve buna kaynaklık eden metinlerde gizlenen duyguların sıklığının tespiti ile ilgili birçok çalışma yapılmıştır. Kişilerin paylaşılan mesajlarında gizlenen duyguların ortaya çıkarılması ve tespiti önemlidir. Metinlerde gizlenen duyguların ortaya çıkarılması için kelime-duygu sözlükleri sıklıkla kullanılmaktadır. Kelime-duygu sözlükleri tespit edebildikleri duygu sayısı dikkate alınarak incelendiğinde, olumlu-olumsuz duygu ve 8 farklı duyguyla birlikte en fazla sayıda duygu çıkarımı yapabilen NRC Duygu Sözlüğüdür. Ancak, duygularını metinler aracılığı ile yansıtan sosyal medya kullanıcılarının duygularını kısıtlı sayıdaki duygu ile sınırlandırmak kişilik özelliklerinin ortaya çıkarılmasında yetersiz kalmaktadır. Kişilik özelliklerini ifade eden duyguların, kişiliğin tespitinde daha fazla temsil edilmesini sağlamak için metinlerden daha çok duyguyu ortaya çıkaran bir sözlüğe ihtiyaç olduğu açık bir şekilde görülmektedir. Bu çalışmada, literatürde bu alanda görülen eksikliğin giderilmesine katkı sunacak olan olumlu-olumsuz ile birlikte 38 farklı duyguyu(korku, kaygı, üzüntü, karamsarlık, iyimserlik, öfke, sevgi, umut vb.) ortaya çıkarabilen NAYALex Duygu Sözlüğü önerilmektedir. Plutchik'in Duygu Teorisine ve NRC Duygu Sözlüğüne dayandırılarak oluşturduğumuz NAYALex Duygu Sözlüğü, her bir kelimesi 38 farklı duygunun en az biri ile ilişkili 6469 ingilizce kelimeden oluşan 245.822 duygu-kelime ilişkisi içermektedir. Bu çalışmamızda iki farklı veri üzerinde çalışmalar yapılmıştır. Birinci veri seti, Instagram kullanıcılarının paylaşımlarını içeren 11.880 farklı paylaşım verisini içermektedir. İkinci veri seti, doğrulama için kullanılan ve önerilen sözlükte yer alan 38 farklı duygunun her birini ayrı ayrı ifade edebilen İngilizce cümlelerden oluşmaktadır. Veri setindeki 380 farklı cümle, insan değerlendiricilere okutularak, okuyucuya göre(38 farklı duygu için) ifade ettiği duyguların belirtilmesi istenmiştir. İnsan değerlendiricilerden elde edilen doğrulama veri seti 26.600 cümle-duygu ilişkisi içermekte ve elde edilen veriler doğrultusunda önerilen NAYALex Duygu Sözlüğünün doğrulanması yapılmıştır. Instagram veri seti üzerinde yapılan deneysel çalışma ve analizlerle NAYALex sözlüğünün kişilik analizinde uygulanabilir ve kullanılabilir bir sözlük olduğu ispatlanmıştır. Doğrulama verisi kullanılarak insan değerlendiriciler ile yapılan çalışma sonucunda NAYALex Duygu Sözlüğü için %77 ortalama doğrulama oranı elde edilerek sözlüğün doğrulması sağlanmıştır. Ayrıca NAYALex doğrulaması için kullanılan doğrulama veri setine Naive Bayes, Destek Vektör Makineleri ve KNN(K-Nearest Neighbors) öğrenme algoritmaları uygulanarak performanslar incelenmiştir. Doğrulama veri seti üzerinde uygulanan sınıflandırma algoritmaları arasında %93 doğruluk oranı ile Destek Vektör Makineleri en yüksek değere sahip sınıflandırma algoritması olmuştur. NAYALex Duygu Sözlüğü; bugüne kadar yapılmış (LIWC, EmoSenticNet, NRC, Empath) duygu sözlükleriyle karşılaştırıldığında, Tiffany'nin belirttiği 154 duygu için kendisine en yakın rakibi olan %6.5 kapsam oranına sahip NRC(Emolex)'e göre yaklaşık dört kat daha fazla duygu çıkarımı yaparak %24.7 oranı ile bildiğimiz kadarıyla en kapsamlı duygu sözlüğü olmuştur.
Özet (Çeviri)
A lot of information is hidden in the emotions that appear in different ways (facial expressions, gestures, speech, etc.) in communication. People often express their feelings and thoughts on social media platforms with textual expressions. By examining social media shares, people's emotional states can be obtained. It has gained importance to reveal the personality traits of the person sharing, and many studies have been carried out to determine the frequency of emotions hidden in the texts that are the source of this. It is important to reveal and detect the emotions hidden in the shared messages of the people. Word-emotion dictionaries are frequently used to reveal the emotions hidden in the texts. When the word-emotion dictionaries are examined considering the number of emotions they can detect, it is the NRC Sentiment Dictionary that can extract the highest number of emotions with positive-negative emotions and 8 different emotions. However, limiting the emotions of social media users who reflect their emotions through texts to a limited number of emotions is insufficient to reveal personality traits. It is clearly seen that there is a need for a dictionary that reveals more emotions than texts in order to ensure that emotions expressing personality traits are more represented in the determination of personality. In this study, the NAYAlex Emotion Dictionary, which can reveal 38 different emotions (fear, anxiety, sadness, pessimism, optimism, anger, love, hope, etc.) together with positive-negative, which will contribute to the elimination of the deficiency seen in this field in the literature, is recommended. Based on Plutchik's Theory of Emotion and the NRC Emotion Dictionary, the NAYAlex Emotion Dictionary contains 245,822 emotion-word relationships consisting of 6469 English words, each word associated with at least one of 38 different emotions. In this study, studies were carried out on two different data. The first data set contains 11,880 different sharing data, which includes the shares of Instagram users. The second data set consists of English sentences that can express each of the 38 different emotions used for verification and included in the proposed dictionary. 380 different sentences in the data set were read to human evaluators and they were asked to indicate the emotions they expressed according to the reader (for 38 different emotions). The validation data set obtained from human evaluators includes 26,600 sentence-emotion relationships, and the proposed NAYALex Emotion Dictionary was validated in line with the data obtained. With the experimental studies and analyzes on the Instagram dataset, it has been proven that the NAYAlex dictionary is a viable and usable dictionary in personality analysis. As a result of the study with human evaluators using validation data, an average validation rate of 77% was obtained for the NAYAlex Emotion Dictionary, and the dictionary was verified. In addition, Naive Bayes,.Support Vector. Machines and KNN (K-Nearest Neighbors) learning algorithms were applied to the validation data set used for NAYAlex validation and the performances were examined. Among the classification algorithms applied on the validation dataset, Support Vector Machines has been the classification algorithm with the highest value with 93% accuracy. NAYAlex Emotion Dictionary; Compared to emotion dictionaries (LIWC, EmoSenticNet, NRC, Empath) made to date, Tiffany extracted 24.7% of emotions for 154 emotions, approximately four times more than its closest competitor, NRC (Emolex), which has 6.5% coverage. As far.as we know, .it has been.the most comprehensive dictionary of emotions.
Benzer Tezler
- Lexicon-based emotion analysis in Turkish
Türkçe metinlerde sözlük tabanlı duygu analizi
MANSUR ALP TOÇOĞLU
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ADİL ALPKOÇAK
- Improving machine learning methods for social media data in Turkish
Türkçe sosyal ortam verileri için makine öğrenme yöntemlerinin geliştirilmesi
BUKET ERŞAHİN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZLEM AKTAŞ
- Aspect-based sentiment analysis in Arabic for healthcare
Sağlık alanı için Arapça metinlerden özellik-tabanlı duygu durum analizi
HUNAIDA RAMADAN MOHAMMAD AWWAD
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ADİL ALPKOÇAK
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Sare: a sentiment analysis research environment
Sare: bir duygu analizi araştırma ortamı
MUS'AB HABİB HUSAİNİ
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜCEL SAYGIN