Geri Dön

Sentiment classification of arabic tweets using a novel learning sentiment-specific word embedding technique

Yeni bir duygu-odaklı kelime gömme tekniği kullanarak arapça tvitlerin duygu sınıflandırması

  1. Tez No: 560951
  2. Yazar: HALA MULKI
  3. Danışmanlar: DOÇ. DR. İSMAİL BABAOĞLU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Selçuk Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 168

Özet

“Arap Baharı”olayları sırasında sosyal medyanın yoğun kullanımı, Arapça görüşlü içeriğin artmasına sebep olmuştur. Duygu Analizi, gerçek zamanlı ve uzun vadeli görüşler sunarak paylaşılan metinlere gömülü görüşleri tanıyabilir. Sosyal medyadaki Arapça içeriğin diyalektik Arapça baskın olması nedeniyle, Arapça duygu analizi modellerinin, Arapça dilin karmaşık olmayan morfolojik doğası bir yana, Arapçanın standart olmayan gramer özelliklerini ve Arapça lehçeler arasındaki varyasyonları da ele alması gerekir. Mevcut Arapça duygu analiz modelleri, diyalektik Arapça içeriğin duygusallığını el yapımı özelliklerle veya gömülü metinlerle temsil eder. El yapımı özellikler genellikle lehçeye özgü Doğal Dil İşleme (DDİ) araçları ve kaynaklarına göre oluşturulur. Bir diğer yandan, metin gömme özellikleri, derin sinirsel mimarilerde öğrenilen cümle/paragraf gömme işlemlerini üretmek için düzenli, söz dizimine duyarlı kompozisyon işlevlerini kullanma eğilimindedir. Geçerli el yapımı ve gömme özellikleri ele alındığında bir lehçe için geliştirilen bir Arapça duygu analiz sistemi, özellikle lehçenin özgür kelime sırası, değişken söz dizimsel doğası ve Arapça lehçeler arasındaki esaslı söz dizimsel/anlamsal farklılıklarla diğer lehçeler için etkili olmayabilir. Bu tezde, el yapımı ve metin gömme özellikleri ile donatılmış lehçe bağımsız iki Arapça duygu analizi modeli sunulmaktadır. Her modelin kendine özgü duygu özellikleri ve sınıflandırma yöntemleri olsa da, her iki model de Arapça DDİ araçlarına en az bağımlı olarak ve dış bilgi kaynaklarına ihtiyaç duymadan birden fazla Arapça lehçenin duygu analizini gerçekleştirmektedir. El yapımı temelinde olan Tw-StAR (HCB Tw-StAR) modelinde, evrensel metin bileşenleri Adlandırılmış Varlıklar (AV) ve ön işleme görevlerinin çeşitli kombinasyonlarını temel alan yeni el yapımı özellikler önerilmiştir. Sağlanan bu özellikler ile HCB Tw-StAR modeli, Arapça olan/Arapça olmayan içerikler için farklı analiz düzeylerinde geliştirilmiş bir duygusallık sınıflandırma performansı elde edebilir. Gömme özellikleri tabanlı sinirsel Tw-StAR (Neu Tw-StAR) isimli ikinci modelde ise, etiketli verilerden öğrenilen ve sırasız SOWE toplamsal kompozisyon işlevi kullanılarak oluşturulan yeni duygu-özgü, söz dizimi dikkate alınmayan n-gram gömme özellikleri sunulmuştur. Önerilen n-gram gömme özellikleri ile eğitilmiş olan Neu Tw-StAR modeli, literatürde temel model olarak kabul edilen“word2vec”ve“doc2vec”isimli iki söz dizimi temelindeki gömme metodundan daha iyi bir performans göstererek çok sayıda doğu ve batı Arapça lehçesini işleyebilme etkinliğini göstermiştir. Ayrıca, sığ bir ileri beslemeli sinir modeli olarak uygulanan Neu Tw-StAR modeli, Konvolüsyonel Sinir Ağları ve Uzun Kısa Süreli Bellek gibi derin sinir modelleri ile karşılaştırıldığında yetenekli bir model olmuş, bazen daha iyi bir performans ve derin sinir modellerine kıyasla kayda değer ölçüde daha az eğitim süresi sergilemiştir.

Özet (Çeviri)

The intensive use of social media during the“Arab Spring”incidents, has led to a sudden growth of the online Arabic opinionated content. Sentiment Analysis can recognize the opinions embedded in shared texts, providing real-time and long-term insights.With the Arabic social media data being dominated by dialectal Arabic, Arabic sentiment analysis models need to handle the complex morphological nature of the Arabic language, let alone, the non-standard grammatical properties and the variances among the Arabic dialects. Existing Arabic sentiment analysis models represent the sentiment embedded in dialectal Arabic either by hand-crafted features or text embedding ones. Hand-crafted features are usually generated based on dialect-specific Natural Language processing (NLP) tools and resources. On the other hand, text embedding features tend to use ordered, syntax-aware composition functions to produce sentence/paragraph embeddings learned within deep neural architectures. Given the current hand-crafted/embedding features, an Arabic sentiment analysis system developed for one dialect might not be efficient for the others, especially with the free word order, the varying syntactic nature and the drastic syntactic/semantic differences among the Arabic dialects. In this thesis, two dialect-independent Arabic sentiment analysis models equipped with hand-crafted and text embedding features are presented. While each model has its own type of sentiment features and classification methods, they both perform sentiment analysis of multiple Arabic dialects with the least dependence on Arabic NLP tools and without the need for external knowledge resources. In the Hand-Crafted based Tw-StAR model (HCB Tw-StAR), novel hand-crafted features based on the universal text components Named Entities (NEs) and various combinations of preprocessing tasks are proposed. Provided with these features, HCB Tw-StAR could achieve an improved sentiment classification performance for Arabic/non-Arabic contents at different analysis levels. In the second model Embedding Features-based Neural Tw-StAR (Neu Tw-StAR), novel sentiment-specific, syntaxignorant n-gram embedding features learned from labeled data and composed using the additive unordered composition function SOWE, are presented. Neu Tw-StAR trained with the proposed n-gram embeddings proved its efficiency to handle multiple Eastern and Western Arabic dialects, as it outperformed two state-of-the-art syntax-aware embedding methods: word2vec and doc2vec. Moreover, being implemented as a shallow feed-forward neural model, Neu Tw-StAR exhibited a competent and some times better performance, in addition it could decrease the consumed training time compared to deep neural models: Convolutional Neural Networks (CNN) and Long short Term Memory netwotks (LSTM) models.

Benzer Tezler

  1. A lexicon based method for subjectivity and sentiment analysis using an Arabic twitter corpus

    Arapça twitter korpusu ile öznellik ve sentıment analizi için sözlük tabanlı yöntem

    NASEER MOHAMMED JASIM AL-BUHRUZI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Matematik Ana Bilim Dalı

    YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR

  2. Sentiment analysis of Arabs in Turkey using deep learning on social media data

    Sosyal medya verileri üzerinde derin oğrenme kullanılarak Türkeyedeki Arabların duygu analizi

    İNAS CUMAOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YÜKSEL ÇELİK

    DR. ÖĞR. ÜYESİ VEDAT TÜMEN

  3. Classification of arabic text using convolutional neural networks

    Konvolutıonal neural ağları kullanılan arabıc metinin sınıflandırması

    BILAL SHAKIR FARAJ ALKHASAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ

  4. Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems

    Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması

    AHMED RAOOF NASSER NASSER

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

  5. Sentiment analysis in Iraqi Arabic dialects based on distributed representations of sentences and machine learning approach

    Cümlelerin dağıtılmış temsilleri ve makine öğrenmesi yaklaşımına dayalı Irak lehçelerinde duygu analizi

    ANWAR ADNAN MZHER ALNAWAS

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NURSAL ARICI

    PROF. DR. MEHMET HAKKI SUÇİN