Geri Dön

Multilevel sentiment analysis in Arabic

Arapça için çok düzeyli duygu analizi

  1. Tez No: 478447
  2. Yazar: AHMED NASSAR
  3. Danışmanlar: PROF. DR. EBRU AKÇAPINAR SEZER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Arapça Duygu Analizi, Düşünce Madenciliği, Makine Öğrenmesi Yaklaşımı, Sözlük Tabanlı yaklaşım, Kurallar, Arabic sentiment analysis, Opinion mining, Machine learning approach, Lexicon based approach, Rules
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 96

Özet

Duygu analizi yorum, haber, blog gibi türlerde gömülü olan genel duyguyu (yani olumlu, olumsuz veya tarafsız) belirlemek için tümcelerin sınıflandırılması işi olarak tanımlanabilir. Bu alanda yapılan çalışmaların büyük çoğunluğu İngilizce metinler için duygu analizi üzerine yoğunlaşırken; Arapça, Türkçe, İspanyolca ve Hollandaca gibi diller için de yapılmış sınırlı sayıda araştırma bulunmaktadır. Tez çalışmasında duyguları sınıflandırmak için sıklıkla kullanılan makine öğrenme (ML) yöntemlerini araştırarak, Arapça belgeler üzerinde duygu analizinin performans sonuçlarının iyileştirilmesi amaçlanmıştır. Aynı zamanda ML ile modelleme sürecinde girdilerin temsilinde yeni vektör biçimleri oluşturulmuştur. İkinci olarak maksimum, ortalama ve çıkarma gibi toplama işlevlerine dayalı farklı formülleri kullanarak terim ve belge düzeylerinde sözcük tabanlı yaklaşımın uygulanması amaçlanmıştır. Sözcük tabanlı yaklaşımın performans sonuçlarındaki en iyi yaklaşımların, Arapça'da sözcüğe dayalı duygu analizinin terim ve belge seviyesi ile birlikte kullanılabileceğini göstermek için kullanılmıştır. Ayrıca, her iki seviye için kuralların kullanım etkinliği de gösterilmiştir. Son olarak, kuralların ML yöntemlerine entegre edildiği hibrid bir yöntem önerilmiştir. Deneylerde OCA derlemi ve Arapça duygular için Arapça'nın zorluklarını çözümlemede geniş kapsamlı bir duygu sözlüğü olan (ArSenL) kullanılmıştır. Deneylerin ilkinde, modellemede kullanılan özellikler OCA derlemininden hem terim hem de doküman düzeyleri için bağımsız olarak seçilmiştir. İkincisinde ise, derlemde Destek Vektör Makinesi (SVM), Karar Ağacı (D-Ağacı) ve Yapay Sinir Ağı (ANN) gibi farklı ML yöntemleri hem tek başlarına ve hem de kurallarla birlikte uygulanmıştır. Üçüncüsünde ise, bir belgedeki her terim için kuralların uygulanabilmesi için belge seviyesinde sözcük temelli yaklaşım uygulanmış ve sonuçlar arasında karşılaştırmalar yapılmıştır. Bu çalışmada elde edilen en başarılı sonuçlar şöyledir: (i) makine öğrenimi kullanımında, ANN sınıflandırıcısı, pozitif test sınıfları için terim ortalamasında elde edilen F-skorunun ortalaması 0.92 olan Arapça duygu analizinde terim düzeyinde ve belge düzeyinde en iyi sınıflandırıcı olarak adlandırılmıştır ve negatif sınıflarda da 0.92'dir. ANN modellinin belge seviyesinde, pozitif test sınıfları için F-skor ortalaması 0.94, negatif sınıflarda ise 0.93'tür. (ii) Sözcüğe dayalı yaklaşıma göre, en iyi sonucun her terim için kurala dayalı yöntemler uygulayarak, sonra her cümle skorunu DMax_Sub formülüyle hesaplayarak ve son olarak, belge skoru hesaplaması için ilk cümle puanı formülü kullanılarak elde edildiği sonucuna ulaşılmıştır. Genel olarak makine öğrenimi yaklaşımı sonuçları sözlük kullanımı yaklaşımına göre daha iyi sonuçlar vermiştir.

Özet (Çeviri)

Sentiment analysis has a great necessity to classify sentences like review, news, blog, etc. in order to hold the overall sentiment (i.e. negative, positive or neutral) embedded in them. The vast majority of studies focused on sentiment analysis for English texts, while there is small number of researches has focused on other texts such as Arabic, Turkish, Spanish and Dutch. In this study, we aimed at improving the performance results of Arabic sentiment analysis in the level of document by: firstly, investigating the most successfully Machine Learning (ML) methods to classify sentiments, at the same time rules have been implemented to create new vector formats for representation of inputs with ML based modeling process. Secondly, applying Lexicon Based (LB) approach in both term and document levels by using different formulae based on aggregating functions like maximum, average and subtraction. However, the rules have been applied in the experiments. Performance results of LB approach have been used to identify the best formulae can be used with term level and document level of lexicon based SA at Arabic Language, also the effectiveness of using rules in both levels has been illustrated. As a final point, employed methods of the two different approaches (i.e. ML and LB) have been tried to create a combined method with considering rules. The OCA corpus was used in the experiments and a sentiment lexicon for Arabic sentiments (ArSenL) was used to resolve the challenges of Arabic Language. Several experiments have been performed as followed: Firstly, features have been selected for both term and document levels of the OCA corpus independently. Secondly, different linear ML methods such as Decision Tree (D-Tree), Support Vector Machine (SVM), and Artificial Neural Network (ANN) have been applied on both of OCA corpus levels with considering applying and not applying rules on both levels of the corpus. Thirdly, LB approach have been applied on the document level with considering applying rules to each term in a document. And finally comparisons between the results have been done to identify the best way to classify sentiment Arabic documents. The most successful results in the study are as follows: (i) In ML approach, ANN classifier has been nominated as best classifier in the term level and in the document level of Arabic SA. Furthermore, the average of F-score achieved in the term level for positive testing classes is 0.92, and also in negative classes is 0.92, however, in the document level, the average of F-score for positive testing classes is 0.94, while in negative classes is 0.93. (ii) In the LB approach, it is concluded that the best results have been achieved by applying rules for each term, then computing each sentence score by DMax_Sub formula, and finally, using first sentence score formulae for document score computing. In general, the results of the ML approach are better than the results of the LB approach.

Benzer Tezler

  1. Multilevel and multiscale cnn for accurate localization and classification of breast lesions

    Meme lezyonlarının doğru lokalizasyonu ve sınıflandırılması için çok seviyeli ve çok ölçekli cnn

    AHMED DHAHI MOHAMMED MOHAMMED

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DURSUN EKMEKCİ

  2. Şebeke yoluyla pazarlama sistemi ve bir uygulama

    Multilevel marketing system and an application

    ALİ ÇAĞLAR ÇAKMAK

    Doktora

    Türkçe

    Türkçe

    2009

    İşletmeErciyes Üniversitesi

    İşletme Bölümü

    PROF. DR. MAHİR NAKİP

  3. Çok-düzeyli regresyon modelleri ile çok-düzeyli yapısal eşitlik modellerinin uygulamalı karşılaştırılması

    A comparative application of multilevel regression models and multilevel structural equation models

    ELİF ÇOKER

    Doktora

    Türkçe

    Türkçe

    2009

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. GÜLAY KIROĞLU

    PROF. DR. JOOP HOX

  4. Multilevel object tracking on big graph data using interval type-2 fuzzy systems in wireless multimedia sensor networks

    Çoklu ortam duyarga ağlarında aralık tip-2 bulanık sistemler kullanarak büyük çizge verilerde çokkatmanlı nesne takibi

    CİHAN KÜÇÜKKEÇECİ

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI

  5. Çok aşamalı modeller ve bir uygulama

    Multilevel modelling and application

    FATMA NOYAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    Y.DOÇ.DR. DOĞAN YILDIZ