Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems
Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması
- Tez No: 493862
- Danışmanlar: PROF. DR. HAYRİ SEVER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 138
Özet
Bilgisayar tabanlı teknolojilerinde toplanan verilerin kullanımı ve büyüklüğü sürekli artımaktadir. Bu sürekli artan büyük verinin işleme ve hesaplama gereksinimleri, özellikle Doğal Dil İşleme NLP uygulamalarında yeni bir zorluklar ortaya koymaktadır. Bu zorluklardan biri, Duygu Analizi (DA) gibi NLP uygulamalarında Büyük Verilerin ele alınma, işlenme ve analiz edilme gereksinimlerine uyan büyük ölçekli metin derlemi gibi zengin bir dilsel kaynağın sağlanmasıdır. Arapça dil için böyle büyük ölçekli bir kaynağın bulunmamasının zorluğu çözmek için, çevrimiçi haber Media'yı ve büyük veri kaynağı tarafından üretilen açık kaynak meta verilerini kullanarak inşa edilen GDELT büyük ölçekli Arapça duygu analiz derlemimizi (GLASC) tanıtmaktayız. GLASC derlimi, (Pozitif, Negatif ve Nötr) kategorilerinde düzenlenen toplam 620.082 haber makalesinden oluşmaktadır ve aynı zamanda, derlemimizdeki her haber makalesinin (-1 ve 1) aralığında bir duygu puanı vardır. Ayrıca, Makine öğrenme sınıflandırma ve regresyon yaklaşımlarına dayalı bir Arapça belge seviyesinde duygu analizi sistemi oluşturmak için GLASC derlemi kullanıp bazı deneyler gerçekleştirdik. Önerilen Makine öğrenmesi modellerini eğitmek için, farklı öznitelik çıkarma ve özellik ağırlıklandırma yöntemlerini kullanarak GLASC derlemimizden farklı veri kümeleri ürettik. Duygu analizi görevi için sıkça kullanılan sınıflandırma ve regresyon, yöntemlerinin testini içeren karşılaştırmalı geniş bir çalışma gerçekleştirilmiştir. Buna ek olarak, çeşitli kapsamlı deneyler kullanarak, duygu analizi için sınıflandırma performansının iyileştirilmesinin etkisini doğrulamak için, (Çuvallama, Yükseltme, Rasgele altuzay ve Öffekleme gibi) topluluk öğrenme yöntemlerinin çeşitli türleri araştırılmıştır. Bu çalışmada, makine öğrenme yaklaşımlarını ve kavrama dayalı bir duyugu sözlüğünü kullanarak, cümle düzeyinde Arapça için kavram tabanlı bir duygu analiz sistemi sunulmuştur. Yakın zamanda çıkan İngilizce SenticNet_v4'ü Arapça'ya çevirerek Arapça kavram temelli bir duygu sözlüğü üretmek için bir yaklaşım önerilmiştir. Üretilen Arapça konsept temelli duygu sözlüğü Ar-SenticNet toplam 48k Arapça kavram içermektedir. Arapça cümleden Konsepti çıkarmak için, anlamsal ayrıştırıcı olarak adlandırılan kural tabanlı bir kavramları çıkarma algoritması önerildi ve uygulanmıştır. Ayrıca, kavram tabanlı cümle düzeyinde Arapça duygu analizi sisteminin oluşturulması için farklı özellikler çıkarım ve gösterim teknikleri sunurak kullandık. Kavram tabanlı cümle düzeyinde Arapça duygu analiz sisteminin karar modeli oluşturmak için, farklı sınıflandırma yöntemi ve sınıflandırıcı füzyon modelleri kullanılarak, önerdiğimiz özellikler kümelerimizin farklı kombinasyonları ile kapsamlı ve karşılaştırmalı deneyler yapılmıştır. Elde edilen deney sonuçlarımıza dayanarak, önerilen Makine öğrenmesi tabanlı Doküman düzeyinde Arapça duygu analiz sistemimiz için, en iyi performans % 92.35 F-skoru değeri olan SVM-HMM sınıflandırıcı füzyon modeliyle ve 0.183 RMSE değeri olan SVR regresyon modeli ile, gerçekleştirilmiştir. Öte yandan, önerilen konsept tabanlı cümle düzeyinde Arapça duygu analiz sistemimiz için, en iyi performans, %93.92'lik bir F-skoru değerine sahip SVM-LR sınıflayıcı füzyon modeliyle ve 0.078 RMSE değeri olan SVR regresyon modeli ile, gerçekleştirilmiştir.
Özet (Çeviri)
Within computer-based technologies, the usage of collected data and its size are continuously on a rise. This continuously growing big data processing and computational requirements introduce new challenges, especially for Natural Language Processing NLP applications. One of these challenges is maintaining massive information-rich linguistic resources which are fit with the requirements of the Big Data handling, processing, and analysis for NLP applications, such as large-scale text corpus. In this work, a large-scale sentiment corpus for Arabic language called GLASC is presented and built using online news articles and metadata shared by the big data resource GDELT. The GLASC corpus consists of a total number of 620,082 news article which are organized in categories (Positive, Negative and Neutral) and, each news article has a sentiment rating score value between -1 and 1. Several types of experiments were also carried out on the generated corpus, using a variety of machine learning algorithms to generate a document-level Arabic sentiment analysis system. For training the sentiment analysis models different datasets were generated from GLASC corpus using different feature extraction and feature weighting methods. A comparative study is performed, involving testing a wide range of classifiers and regression methods that commonly used for sentiment analysis task and in addition several types of ensemble learning methods were investigated to verify its effect on improving the classification performance of sentiment analysis by using different comprehensive empirical experiments. In this work, a concept-based sentiment analysis system for Arabic at sentence-level using machine learning approaches and a concept-based sentiment lexicon is also presented. An approach for generating an Arabic concept-based sentiment lexicon is proposed and done by translating the recently released English SenticNet_v4 into Arabic and resulted in producing Ar-SenticNet which contains a total of 48k of Arabic concepts. For extracting the concept from the Arabic sentence, a rule-based concept extraction algorithm called semantic parser is proposed and performed, which is generates the candidate concept list for an Arabic sentence. Different types of feature extraction and representation techniques were also presented and used for building the concept-based Sentence-level Arabic sentiment analysis system. For building the decision model of the concept-based Sentence-level Arabic sentiment analysis system a comprehensive and comparative experiments were carried out using variety of classification methods and classifier fusion models, together with different combinations of the proposed features sets. The obtained experiment results show that, for the proposed machine learning based Document-level Arabic sentiment analysis system, the best performance is achieved by the SVM-HMM classifier fusion model with a value of F-score of 92.35% and by the SVR regression model with RMSE of 0.183. On the other hand, for the proposed concept-based sentence-level Arabic sentiment analysis system, the best performance is achieved by the SVM-LR classifier fusion model with a value of F-score of 93.92% and by the SVM regression model with RMSE of 0.078.
Benzer Tezler
- Arap dünyasında modern dilbilim çalışmaları
Modern linguistic studies in Arab world's
BAHAR ARIKAN
Yüksek Lisans
Türkçe
2018
Dilbilimİstanbul ÜniversitesiDoğu Dilleri ve Edebiyatları Ana Bilim Dalı
DOÇ. DR. ÖMER İSHAKOĞLU
- Küresel barut üretim parametrelerinin incelenmesi, sentezi ve karakterizasyonu
Synthesis, characterization and analysis of the production parameters of ball powder
MEVLÜT ERAY ŞAHİN
Yüksek Lisans
Türkçe
2014
KimyaHacettepe ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET RIFAT ÖZDURAL
- المقارنة بين المرابحة المصرفية والقروض الرّبوية
Katılım bankalarındaki murabaha işlemi ile faizli krediler arasında bir mukayese:Comparison between participating bank's murabaha and riba-based loans
MUHAMMAD NAZIR KHAN
Yüksek Lisans
Arapça
2019
Bankacılıkİstanbul ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
PROF. DR. SERVET BAYINDIR
- Dilbilimsel tefsirlerde kıraatlere yaklaşım
Aproaches to the qiraat (the variant readings of the Quran) in the linguistic commentaries
ALİ TEMEL
Doktora
Türkçe
2015
DilbilimAnkara ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
PROF. DR. HALİS ALBAYRAK
- Ebu'l Huseyn İbn Fâris ve Es-Sâhibî kitabı
Ebu?l Huseyn Ibn Fâris and es-Sâhibî book
SALİH ZEKİ KEŞ
Yüksek Lisans
Türkçe
2010
DilbilimSelçuk ÜniversitesiTemel İslam Bilimleri Ana Bilim Dalı
PROF. DR. TACETTİN UZUN