Multilevel sentiment analysis in Arabic

Arapça için çok düzeyli duygu analizi

PDF İndir

Tez No: 478447
Yazar: AHMED NASSAR
Danışmanlar: PROF. DR. EBRU AKÇAPINAR SEZER
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Arapça Duygu Analizi, Düşünce Madenciliği, Makine Öğrenmesi Yaklaşımı, Sözlük Tabanlı yaklaşım, Kurallar, Arabic sentiment analysis, Opinion mining, Machine learning approach, Lexicon based approach, Rules
Yıl: 2017
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 96

Özet

Duygu analizi yorum, haber, blog gibi türlerde gömülü olan genel duyguyu (yani olumlu, olumsuz veya tarafsız) belirlemek için tümcelerin sınıflandırılması işi olarak tanımlanabilir. Bu alanda yapılan çalışmaların büyük çoğunluğu İngilizce metinler için duygu analizi üzerine yoğunlaşırken; Arapça, Türkçe, İspanyolca ve Hollandaca gibi diller için de yapılmış sınırlı sayıda araştırma bulunmaktadır. Tez çalışmasında duyguları sınıflandırmak için sıklıkla kullanılan makine öğrenme (ML) yöntemlerini araştırarak, Arapça belgeler üzerinde duygu analizinin performans sonuçlarının iyileştirilmesi amaçlanmıştır. Aynı zamanda ML ile modelleme sürecinde girdilerin temsilinde yeni vektör biçimleri oluşturulmuştur. İkinci olarak maksimum, ortalama ve çıkarma gibi toplama işlevlerine dayalı farklı formülleri kullanarak terim ve belge düzeylerinde sözcük tabanlı yaklaşımın uygulanması amaçlanmıştır. Sözcük tabanlı yaklaşımın performans sonuçlarındaki en iyi yaklaşımların, Arapça'da sözcüğe dayalı duygu analizinin terim ve belge seviyesi ile birlikte kullanılabileceğini göstermek için kullanılmıştır. Ayrıca, her iki seviye için kuralların kullanım etkinliği de gösterilmiştir. Son olarak, kuralların ML yöntemlerine entegre edildiği hibrid bir yöntem önerilmiştir. Deneylerde OCA derlemi ve Arapça duygular için Arapça'nın zorluklarını çözümlemede geniş kapsamlı bir duygu sözlüğü olan (ArSenL) kullanılmıştır. Deneylerin ilkinde, modellemede kullanılan özellikler OCA derlemininden hem terim hem de doküman düzeyleri için bağımsız olarak seçilmiştir. İkincisinde ise, derlemde Destek Vektör Makinesi (SVM), Karar Ağacı (D-Ağacı) ve Yapay Sinir Ağı (ANN) gibi farklı ML yöntemleri hem tek başlarına ve hem de kurallarla birlikte uygulanmıştır. Üçüncüsünde ise, bir belgedeki her terim için kuralların uygulanabilmesi için belge seviyesinde sözcük temelli yaklaşım uygulanmış ve sonuçlar arasında karşılaştırmalar yapılmıştır. Bu çalışmada elde edilen en başarılı sonuçlar şöyledir: (i) makine öğrenimi kullanımında, ANN sınıflandırıcısı, pozitif test sınıfları için terim ortalamasında elde edilen F-skorunun ortalaması 0.92 olan Arapça duygu analizinde terim düzeyinde ve belge düzeyinde en iyi sınıflandırıcı olarak adlandırılmıştır ve negatif sınıflarda da 0.92'dir. ANN modellinin belge seviyesinde, pozitif test sınıfları için F-skor ortalaması 0.94, negatif sınıflarda ise 0.93'tür. (ii) Sözcüğe dayalı yaklaşıma göre, en iyi sonucun her terim için kurala dayalı yöntemler uygulayarak, sonra her cümle skorunu DMax_Sub formülüyle hesaplayarak ve son olarak, belge skoru hesaplaması için ilk cümle puanı formülü kullanılarak elde edildiği sonucuna ulaşılmıştır. Genel olarak makine öğrenimi yaklaşımı sonuçları sözlük kullanımı yaklaşımına göre daha iyi sonuçlar vermiştir.

Özet (Çeviri)

Sentiment analysis has a great necessity to classify sentences like review, news, blog, etc. in order to hold the overall sentiment (i.e. negative, positive or neutral) embedded in them. The vast majority of studies focused on sentiment analysis for English texts, while there is small number of researches has focused on other texts such as Arabic, Turkish, Spanish and Dutch. In this study, we aimed at improving the performance results of Arabic sentiment analysis in the level of document by: firstly, investigating the most successfully Machine Learning (ML) methods to classify sentiments, at the same time rules have been implemented to create new vector formats for representation of inputs with ML based modeling process. Secondly, applying Lexicon Based (LB) approach in both term and document levels by using different formulae based on aggregating functions like maximum, average and subtraction. However, the rules have been applied in the experiments. Performance results of LB approach have been used to identify the best formulae can be used with term level and document level of lexicon based SA at Arabic Language, also the effectiveness of using rules in both levels has been illustrated. As a final point, employed methods of the two different approaches (i.e. ML and LB) have been tried to create a combined method with considering rules. The OCA corpus was used in the experiments and a sentiment lexicon for Arabic sentiments (ArSenL) was used to resolve the challenges of Arabic Language. Several experiments have been performed as followed: Firstly, features have been selected for both term and document levels of the OCA corpus independently. Secondly, different linear ML methods such as Decision Tree (D-Tree), Support Vector Machine (SVM), and Artificial Neural Network (ANN) have been applied on both of OCA corpus levels with considering applying and not applying rules on both levels of the corpus. Thirdly, LB approach have been applied on the document level with considering applying rules to each term in a document. And finally comparisons between the results have been done to identify the best way to classify sentiment Arabic documents. The most successful results in the study are as follows: (i) In ML approach, ANN classifier has been nominated as best classifier in the term level and in the document level of Arabic SA. Furthermore, the average of F-score achieved in the term level for positive testing classes is 0.92, and also in negative classes is 0.92, however, in the document level, the average of F-score for positive testing classes is 0.94, while in negative classes is 0.93. (ii) In the LB approach, it is concluded that the best results have been achieved by applying rules for each term, then computing each sentence score by DMax_Sub formula, and finally, using first sentence score formulae for document score computing. In general, the results of the ML approach are better than the results of the LB approach.

Benzer Tezler

Tez No
889658
Multilevel and multiscale cnn for accurate localization and classification of breast lesions
Meme lezyonlarının doğru lokalizasyonu ve sınıflandırılması için çok seviyeli ve çok ölçekli cnn
AHMED DHAHI MOHAMMED MOHAMMED
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DURSUN EKMEKCİ
Tez No
240812
Şebeke yoluyla pazarlama sistemi ve bir uygulama
Multilevel marketing system and an application
ALİ ÇAĞLAR ÇAKMAK
Doktora
Türkçe
2009
İşletme Erciyes Üniversitesi
İşletme Bölümü
PROF. DR. MAHİR NAKİP
Tez No
256596
Çok-düzeyli regresyon modelleri ile çok-düzeyli yapısal eşitlik modellerinin uygulamalı karşılaştırılması
A comparative application of multilevel regression models and multilevel structural equation models
ELİF ÇOKER
Doktora
Türkçe
2009
İstatistik Mimar Sinan Güzel Sanatlar Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. GÜLAY KIROĞLU
PROF. DR. JOOP HOX
Tez No
637794
Multilevel object tracking on big graph data using interval type-2 fuzzy systems in wireless multimedia sensor networks
Çoklu ortam duyarga ağlarında aralık tip-2 bulanık sistemler kullanarak büyük çizge verilerde çokkatmanlı nesne takibi
CİHAN KÜÇÜKKEÇECİ
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
Tez No
168462
Çok aşamalı modeller ve bir uygulama
Multilevel modelling and application
FATMA NOYAN
Yüksek Lisans
Türkçe
2005
İstatistik Yıldız Teknik Üniversitesi
İstatistik Ana Bilim Dalı
Y.DOÇ.DR. DOĞAN YILDIZ

Geri Dön