Geri Dön

Improving sentiment analysis based deep learning by using feature selection

Özellik seçimini kullanarak duygu analizine dayalı derin öğrenmeyi iyileştirme

  1. Tez No: 665866
  2. Yazar: MOHAMMED HUSSEİN ABDALA
  3. Danışmanlar: DOÇ. DR. FATİH ÖZYURT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 65

Özet

Son yıllarda, çevrimiçi sosyal medya kullanımındaki çarpıcı artış nedeniyle duyarlılık analizi çok fazla araştırma kazandı. Öğrenmeye dayalı yöntemler için, formların performansını iyileştirmek için birçok teknik olarak gelişmiş strateji kullanılmıştır. Duygu analizi sistemi, doğal dil işleme tekniklerini ve duygusal bir kelime ağını kullanır ve NLP'deki derin öğrenmenin uygulamalarından biri duygu analizidir. En popüler ve başarılı RNN türü LSTM ağıdır. Duyguları analiz etmek için LSTM yeteneğini kullanan çok fazla araştırma var. Ancak, büyük veri hacimleri, test verilerinde LSTM ağ sonuçlarının doğruluğunu azaltır; başka bir deyişle, aşırı uydurma meydana gelir. Bu sorun, bağımsız değişkenler arasında yüksek bir korelasyon olduğunda ortaya çıkar. Bağımsız ve bağımlı değişkenler arasındaki korelasyon katsayısının yüksek değerine rağmen model yüksek geçerliliğe sahip olmayabilir. Diğer bir deyişle, model iyi görünmesine rağmen, önemli bağımsız değişkenlere sahip değildir. LSTM ağını özellik seçim yöntemleriyle birleştirmek, etkili özellikleri seçmek ve çözmek için duyarlılık analizi doğruluğunu artırabilir. Bu çalışmada, üç karşılaştırma veri setini (YELP, US Airline ve IMDB) kullandık, ardından özellik seçme yöntemini kullanarak sınıflandırma doğruluğunu iyileştirmek için bir derin öğrenme modeli (LSTM, Bi-LSTM ve GRU) önerdik. , filtre tabanlı özellik seçim yöntemi Ki-kare ve Prensip bileşen analiz yöntemi PCA, özelliklerin optimum bir alt kümesini seçmek ve her birinin performansı doğruluk, kesinlik, geri çağırma ve F1 skoru açısından ölçülür ve karşılaştırılır. (LSTM, Bi-LSTM ve GRU) modellerini (Chi-2 ve PCA) seçilen özelliklerle ve ayrıca orijinal özellik setiyle karşılaştırdıktan sonra, sonuçlar, özellik seçim yöntemlerinin tüm durumlarda sınıflandırma doğruluğunu önemli ölçüde artırdığını göstermektedir. . Yelp veri setinde Bi-LSTM'nin elde edilen maksimum doğruluğu, ki-kare kullanılarak% 100'dür. ABD Havayolu veri kümesinde, GRU-LSTM'nin elde edilen maksimum doğruluğu ki-kare kullanılarak% 97,9'dur. IMDB veri kümesinde, Bi-LSTM'nin elde edilen maksimum doğruluğu ki-kare kullanılarak% 99,9'dur

Özet (Çeviri)

In recent years, sentiment analysis has gained a great deal of research due to the dramatic growth in online social media use. For learning-based methods, many technically advanced strategies have been used to improve the performance of the forms. The sentiment analysis system uses natural language processing techniques and a sentimental vocabulary network, and one of the applications of deep learning in NLP is sentiment analysis. The most popular and successful type of RNN is the LSTM network. There is much research that uses the LSTM ability to analyze sentiment. However, large data volumes reduce the accuracy of LSTM network results in test data; in other words, over-fitting occurs. This problem occurs when there is a high correlation between independent variables. The model may not have high validity despite the high value of the correlation coefficient between the independent and dependent variables. In other words, although the model looks good, it does not have significant independent variables. Combining the LSTM network with feature selection methods can increase sentiment analysis accuracy to select effective features and solve them. In this study, we used the three benchmark datasets, namely (YELP, US Airline, and IMDB), then proposed a deep learning model (LSTM, Bi-LSTM, and GRU) to improve classification accuracy through using the feature selection method, namely, filter-based feature selection method Chi-square and Principle component analysis method PCA to select an optimal subset of features, and the performance of each measured and compared in terms of accuracy, precision, recall, and F1 score. After comparing the (LSTM, Bi-LSTM, and GRU) models with (Chi-2 and PCA) selected features, and also with the original feature set, the results show that feature selection methods significantly increase classification accuracy in all cases. . In the Yelp dataset, the maximum attained an accuracy of Bi-LSTM is 100% using chi-square. In the US Airline dataset, the maximum achieved accuracy of GRU-LSTM is 97.9% using chi-square. In the IMDB dataset, the maximum achieved accuracy of Bi-LSTM is 99.9% using chi-square.

Benzer Tezler

  1. Development of deep learning-basedsentiment analysis approaches withneural network-based languagemodels

    Sinir ağı tabanlı dil modelleriyle derin öğrenme tabanlı duygu analizi yaklaşımlarının geliştirilmesi

    KHADIJA MOHAMAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KÜRŞAT MUSTAFA KARAOĞLAN

  2. Finsentiment: Predicting financial sentiment and risk through transfer learning

    Başlık çevirisi yok

    ZEHRA ERVA ERGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  3. Soğan mimarisinde metin içeriklerinin yapay zekâ destekli modeller ile değerlendirilmesi ve dağıtımı

    Evaluation and distribution of text contents with models supported by artificial intelligence techniques in onion architecture

    SEMİH OSMAN SAKA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSamsun Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZAFER CÖMERT

  4. Data augmentation for natural language processing

    Doğal dil işleme için veri artırma

    MUSTAFA ÇATALTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

    DOÇ. DR. NURDAN BAYKAN

  5. Humanitarian assistance policies of the European Union towards syrian refugees in Turkey

    Avrupa Birliği'nin Türkiye'deki Suriyeli mültecilere yönelik insani yardım politikaları

    CANSU ÇELİKER

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Siyasal BilimlerOrta Doğu Teknik Üniversitesi

    Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı

    DOÇ. DR. BAŞAK KALE LACK