Geri Dön

Lexicon-based emotion analysis in Turkish

Türkçe metinlerde sözlük tabanlı duygu analizi

  1. Tez No: 524609
  2. Yazar: MANSUR ALP TOÇOĞLU
  3. Danışmanlar: DOÇ. DR. ADİL ALPKOÇAK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

Bu tez, Türkçe metinlerde duygu analizi çalışmaları yapmak için yeni bir veri seti ve yeni bir sözlük ortaya koymaktadır. Bu veri setini oluşturmak için, 4,709 katılımcıdan 27,350 adet doküman toplandığı bir anket yürütülmüştür. Ardından, etiketleyicilerin her bir dokümanın duygu kategorisini birer birer doğruladıkları bir doğrulama süreci yürütülmüştür. Sonuç olarak, biri ham, biri de doğrulanmış olarak adlandırılan iki adet veri seti elde edilmiştir. İki adet köke indirgeme metodu kullanılarak bu iki veri setinden dört adet versiyonu elde edilmiş ve sonrasında bir uzay vektör modeli yardımıyla bu dört versiyon modellenmiştir. Doğruluk, kesinlik, hassasiyet ve F ölçüm değerlerini hesaplamak için makine öğrenme algoritmaları çalıştırılmıştır. Elde edilen sonuçlara dayanarak; SVM sınıflandırıcısının en yüksek performans değerini sağladığı ve doğrulanmış veri seti ile çalıştırılan modellerin, doğrulanmamış veri seti ile çalıştırılan modellerden daha doğru sonuçlar verdiği tespit edilmiştir. Tezin ikinci aşamasında, tez içinde oluşturulmuş olan veri seti kullanılarak, Türkçe metinlerde sözlük bazlı duygu analizi için bir sözlük önerilmektedir. Köke indirgeme, terim ağırlığı, sözlük zenginleştirme ve terim seçimi yaklaşımlarının etkileri araştırılmıştır. Dokümanların farklı yaklaşımlar kullanılarak işlenmesiyle her terimin kökü elde edilmiştir. Daha sonra, terim sınıf frekanslarına ve karşılıklı bilgi değerlerine dayanan iki ağırlıklandırma şeması kullanılmıştır. Sözlük zenginleştirmesi için bi-gram ve kavram hiyerarşisi kullanılmıştır. Sonrasında, verimlilik sorunları için terim seçimi uygulanmıştır. Son olarak, sözlüğün performansı ayrı bir Türkçe veri setinde anahtar kelime tespiti tekniği kullanılarak ölçülmüştür. Yapılmış olan deneyler, önerilmiş olan sözlükteki anahtar kelime tespiti tekniğinin kullanımının Türkçe metinlerden duygu çıkarımı için tatmin edici sonuçlar verdiğini göstermiştir.

Özet (Çeviri)

This thesis presents a new dataset and a new lexicon for emotion analysis studies in Turkish text. To gather this dataset, we conducted a survey and collected 27,350 entries from 4,709 individuals. Then, we performed a validation process in which annotators validated each entry one by one by assigning a related emotion category. As a result, we obtained two datasets, one raw and the other validated. Subsequently, we generated four versions of these two datasets using two different stemming methods and then modeled them using a vector space model. Then, we ran machine learning algorithms on the models to calculate the accuracy, precision, recall and F measure values. Based on the results we obtained, we concluded that the SVM classifier yielded the highest performance value and that the models trained with a validated dataset provide more accurate results than the models trained with a non validated dataset. In the second phase of the thesis, we propose a lexicon for the use of lexicon-based emotion analysis in Turkish text by using the dataset we constructed within the thesis. We explored the effects of stemming, term weighting, lexicon enrichment and term selection approaches for lexicon-based emotion analysis. We first pre-processed the documents (entries) to obtain stems of each term using different approaches. Afterward, we proposed two different weighting schemas based on term class frequencies and Mutual Information values. Next, we examined bi-grams and concept hierarchy for lexicon enrichment. Furthermore, we applied term selection for efficiency issues. Lastly, we evaluated the performance of the lexicon by using keyword-spotting technique on a separate Turkish dataset. The experiments showed that use of our proposed lexicon in keyword spotting technique produces a satisfactory result in emotion analysis in Turkish Text.

Benzer Tezler

  1. Stock value prediction using machine learning and text mining

    Makine öğrenmesi ve metin madenciliği kullanılarak hisse senedi fiyatlarının tahminlendirilmesi.

    AYŞENUR DİLARA ÇELİKEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilim ve TeknolojiKadir Has Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HASAN DAĞ

  2. Emotion analysis on Turkish text

    Türkçe metinlerde duygu analizi

    HATİCE ERTUĞRUL GİRAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Ekonomi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SENEM KUMOVA METİN

  3. Büyük veri üzerinde duygu analizi yöntemleri ve Azerbaycan diline uygulanması

    Sentiment analysis methods on big data and application to Azerbaijan language

    HUSEYN HASANLI

    Doktora

    Türkçe

    Türkçe

    2019

    MatematikEge Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. BURAK ORDİN

  4. Analyzing the effects of emotions on fake news detection: A Covid-19 case study

    Duyguların sahte haber tespiti üzerindeki etkilerininanalizi: Bir Covıd-19 vaka çalışması

    BAHAREH FARHOUDINIA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Yönetim Bilimleri Bilim Dalı

    PROF. DR. NİHAT KASAP

    PROF. DR. SELCEN ÖZTÜRKCAN

  5. Examining the helpfulness of online customer reviews based on review related factors: The moderating effect of product type

    Yorumlara ilişkin faktörler temelinde çevrimiçi müşteri yorumlarının yararlılığını inceleme: Ürün türünün düzenleyici etkisi

    BETÜL DURKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    İşletmeİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. HURİYE ŞEBNEM BURNAZ