Geri Dön

Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

Movie rating on tweets using natural language processing and data mining

  1. Tez No: 554898
  2. Yazar: ABDOULAZIZ ABDOUKARIM
  3. Danışmanlar: DOÇ. DR. BARIŞ KOÇER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Selçuk Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Duygu Analizi (DA), metin madenciliği alanında devam eden bir araştırma dalıdır. DA, metnin görüş, duygu ve öznelliklerinin hesaplanması olarak da ifade edilebilir. Bu çalışmada DA, DA yaklaşımları, film değerlendirmesi ve film başarısı tahmini konularını ele alınmıştır. Bu amaçla çok sayıda teknik kullanılmıştır. Bu çalışmada makine öğrenim yöntemlerine ve twitter film incelemesinde uygulanan denetimli öğrenim yöntemlerine odaklanılmıştır. Bu çalışma ile, makine öğrenimi (MÖ) tekniklerini temel alan hesaplama yöntemlerinin geliştirilmesi önerilmiştir. Model oluşturmak ve oluşturulan bu model ile kişilerin görüşlerini sınıflandırmak için kullanılan alogritmalara girdi olarak Bag of Words'dan (BoW) gelen özellikleri kullanan bazı teknikler uygulanmıştır. BoW kelimelerden oluşan bir model, modellemede kullanım için, örneğin makine öğrenme algoritmaları gibi metinden özellikler çıkarmanın bir yoludur. Ön işleme süreci, özellik çıkarma ve önceden etiketlenmiş gözlemler ile sistemin eğitiminden oluşur. Oluşturulan modeller, yeni gözlemlerin duygularını tahmin etmek için kullanılmıştır. Vectorization kullanarak özellikleri çıkarılmıştır. Önişleme için, Regex ve Pandas gibi python kütüphaneleri kullanılmış ve tweet'leri bağlantılardan, özel karakterlerden, çift tweet'lerden vb. Temizlemeye yardımcı olmuştur. Amaç, ifade edilen bir görüşün olumlu mu yoksa olumsuz mu olduğunu bulmaktadır. Scikit-learn araçları bu amaç için kullanılmıştır. Önce modeller oluşturulup eğitilmiştir. Son olarak test veri setinin sınıfları tahmin edilmiştir. Test veri setinin duygusunu sınıflandırmak için, eğitim veri seti örneklerinin % 75'i eğitim seti olarak, % 25'i validasyon seti olarak kullanılmıştır. İlgili özellikler seçildikten sonra karar ağacı, gradyan artırma, lojistik regresyon ve rastgele orman sınıflandırma algoritmaları ile tek tek eğitilip sırasıyla % 70.88, % 81.86, % 85.66 ve % 85.36 doğruluk oranları elde edilmiştir. Bu yöntemlerin performansları, karışıklık matrisi kullanılarak karşılaştırılmıştır. Sonuçlar, Matplotlib ve Seaborn kütüphaneleri kullanılarak çizilmiştir. Duygu analizinden elde edilen bulgular, daha sonra film değerlendirmesi için kullanılmıştır. IMDB (veya İnternet Film Veri Tabanı, dünyadaki tüm ülkelerin ve dönemlerin film değerlendirmesi ve televizyon filmleri, film yıldızları ve TV dizileri hakkında çevrimiçi bilgi veritabanıdır) ve Rotten Tomatoes (ya da Çürük domates, film eleştirmenleri, film değerlendirmesi, oyuncular, yönetmenler, fragmanlar ve sinema haberleri için yerel bir web sitesidir) ile karşılaştırıldığında oldukça iyi sonuçlar elde edilmiştir.

Özet (Çeviri)

Sensitivity Analysis (SA) is an ongoing field of research in the field of text research. SA is the computational functioning of the text's view, emotion and subjectivity. In this study, we talk about SA, SA approaches, movie rating and movie success prediction. For this purpose, a large number of technics have been used to do SA. In our case we focus on machine learning methods and using the supervised learning methods applied on movie review on twitter. Through this project, we proposed the development of computational methods that are based on Machine Learning (ML) technics. We implement some technics that uses features got from bag of word (BoW) as input for our alogrithms in order to build model and then to classify the opinion of individuals. A bag-of-words model is a method of features extraction from text and those features will be used in modeling, such as with machine learning algorithms It consists of preprocessing, extracting features and training pre-labelled observations. The models built, were used to predict the sentiment of new observations unseen by them. We extracted features using vectorization. For preprocessing, libraries of python such us Regex and Pandas were used and helped to clean tweets from links, special characters, duplicate tweets etc... To perform the SA, the model built was used to automate the classification of sentiment from typically unstructured text. The goal is to find out whether an expressed opinion is positive, or negative. Scikit-learn tools were used for that purpose. We first import the models, then train them and finally predict the class of the test set. To classify the sentiment of the test set, 75 % of the samples were used as training set and 25% of the samples as validation set. After selecting the relevant features, the decision tree, gradient boosting, logistic regression and random forest classifiers have been applied, trained and we have obtained accuracy respectively 70.88%, 81.86%, 85.66% and 85.36%. We have been able to compare their performance using confusion matrix. The result were plotted using some Matplotlib and Seaborn libraries. The results got from the SA were then used for movie rating. And the results obtained when compared them with IMDB (it is an online database of information on film rating and television films, film stars and TV series of all countries and periods of the world. and Rotten Tomatoes (it is a local website for film critics, film rating, actors, directors, trailers and cinema news) were pretty good.

Benzer Tezler

  1. Şirket misyon ve vizyon bilgilerinin veri madenciliği yöntemiyle incelenerek işletme performansı göstergeleri ile ilişkilendirilmesi

    The relationship between company mission and vision information with company performance indicators with using data mining

    YAVUZ OĞUZ İPEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İşletmeBahçeşehir Üniversitesi

    İşletme Bilim Dalı

    DOÇ. DR. MUHTEREM ŞEBNEM ENSARİ

  2. Rasa chatbot integrated with natural language processing for apartment price prediction supported by web content mining

    Web içeriği madenciliği tarafından desteklenen konut fiyat tahmini ile entegre edilen doğal dil işleme tabanlı rasa sohbet botu

    SADİG HUSEYNLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar Üniversitesi

    Yapay Zeka Mühendisliği Ana Bilim Dalı

    PROF. DR. SERHAT ÖZEKES

  3. Yazılım güvenlik açıklarının skorlanması ve kategorisinin belirlenmesinde yeni bir yöntem

    A new method to determine scoring and category of software vulnerabilities

    HAKAN KEKÜL

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BURHAN ERGEN

  4. Amazon müşteri yorumlarının duygu analizi yöntemleriyle değerlendirilmesi

    Evaluating Amazon customer reviews through sentiment analysis techniques

    SABUHI YUSIFOV

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOSTİM TEKNİK ÜNİVERSİTESİ

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ SEBETCİ

  5. Text mining in Turkish radiology reports

    Türkçe radyoloji raporlarında metin madenciliği

    TUĞBERK KOCATEKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. DEVRİM ÜNAY