Geri Dön

Metin madenciliği ve duygu analizi: IMDB en iyi üç filmin twitter yorumlarının analizi

Metin madenciliği ve duygu analizi: IMDB en iyi üç filmin twitter yorumlarinin analizi

  1. Tez No: 794584
  2. Yazar: NECLA KAPUKAYA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ELİF TUNA
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 50

Özet

Çalışmada hedeflenen amaç Twitter Developer hesabı üzerinden R programlama dili kullanılarak IMDb“En iyi 250 Filmler”listesindeki ilk üç film olan Esaretin Bedeli, Baba ve Kara Şövalye filmlerinin Twitter gerçek kişi kullanıcılarının yorumlarına ait metin analizini elde etmektir. IMDb puanlamasına göre yüksek derecelendirilen filmlerin günlük konuşma metninde de duygu değerlerinin benzer olup olmadığı tespit edilmiştir. Çalışmada Twitter platformu üzerinden çekilen yapılandırılmamış verilerin R program dili kullanılarak metin ön temizleme işlemleri yapılmış, meta veri haline dönüştürülmüş ve elde edilen temiz veri üzerinden metin madenciliği yöntemleri olan tf-idf, N-gram modelleme ve duygu analizi incelemesi yapılmıştır. Her üç film için de elde edilen kelime bulutları ile kullanıcı yorumlarının duygu analizi incelenmiştir. Çalışmanın ilk bölümünde veri madenciliği, metin madenciliği, metin madenciliğinin uygulama alanlarından bahsedilmiştir. Çalışmamızda kullanılan tekniklere benzer çalışmaların literatür taraması yapılmıştır. Literatürde var olan çalışmaların katkısı ve inceledikleri uygulamadan bahsedilmiştir. Tezin amacına yer verilmiştir. Twitter verilerine ulaşmak için kullanılan Twitter Developer hesabının nasıl elde edildiğini, aşamalarını ve elde edilen kullanıcı hesabı ile ulaşılan API ve şifre detayları hakkında bilgi verilmiştir. İkinci bölümde metin madenciliği metodolojisine yer verilmiştir. Yapılandırılmamış olan metinlerin ön temizleme işleminin nasıl yapıldığına dair bilgi verilmiştir. Yapılandırılmış verilere metin madenciliği tekniklerinden tf-idf, N-gram yoluyla kelimeler arasındaki ilişki ve korelasyon hesaplaması tekniklerinin teorilerinden bahsedilmiştir. Elde edilen temiz veriye duygu analizi tekniklerinin uygulaması ve kelime bulutlarının oluşturulması konuları ele alınmıştır. Çalışmanın üçüncü bölümünde uygulamaya yer verilmiştir. Uygulamada Twitter verilerinin üç ayrı film için yapılandırılmamış metin verilerine ulaşılmıştır. Elde edilen temiz veriye duygu analizi teknikleri uygulanmıştır ve kelime bulutları oluşturularak görselleştirilmiştir. Çalışmanın üçüncü bölümünde uygulamaya ve son bölümde elde edilen sonuç ve değerlendirmeye yer verilmiştir.

Özet (Çeviri)

The aim of this study is to obtain a text analysis of the comments of Twitter users (by filtering out bot account) on the first three movies in the IMDb“Top 250 movies”list, namely The Shawshank Redemption, The Gotfather and The Dark Knight, using the R programming language on the Twitter Developer account. It has been determined whether the emotional values of the movies that are rated high according to the IMDb scoring are similar in the daily speech text or not. In the study using the R programming language, the unstructured data captured from the Twitter platform were applied text pre-cleaning process, thereafter processes of transforming into metadata, text mining methods were carried out on the obtained clean data. In the first part of the study, data mining, text mining, application areas of text mining are mentioned. A literature review of the studies similar to the techniques used in our study was conducted. The contribution of the existing studies in the literature and the application they examined are mentioned. The purpose of the thesis is mentioned. Information were given on how the Twitter Developer account that is used to access Twitter data was obtained, the stages of obtaining the account and the API and password details accessed with the obtained user account. In the second part, text mining methodology is mentioned. Information on how to pre-clean the unstructured text is given. Structured data, text mining techniques tf-idf, the relationship between words through N-gram and the theory of correlation calculation techniques are mentioned. The application of sentiment analysis techniques to the clean data obtained is discussed and visualized by creating word clouds. In the third part of the study, the application is mentioned. In the last section, the results and evaluation are summarized.

Benzer Tezler

  1. Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

    Movie rating on tweets using natural language processing and data mining

    ABDOULAZIZ ABDOUKARIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BARIŞ KOÇER

  2. Duygu analizi ve metin madenciliği yöntemleriyle hizmet kalitesi ölçüm modeli önerisi: Ankara Büyükşehir Belediyesi örneği

    Service quality measurement model proposal using sentiment analysis and text mining methods: The case of Ankara Metropolitan Municipality

    ERHAN SUR

    Doktora

    Türkçe

    Türkçe

    2024

    Yönetim Bilişim SistemleriGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN ÇAKIR

  3. Sosyal medya üzerinden metin madenciliği ve duygu analizi ile pazar değerlendirme

    Market analysis based over social networks using text mining and cluster analysis

    HATİME DİLEK BEYHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. BAŞAR ÖZTAYŞİ

  4. Twitter'da metin madenciliği ve duygu analizi ile uzaktan eğitim memnuniyetinin incelenmesi

    Examination of distance education satisfaction with text mining and sentiment analysis on Twitter

    AHMET EMRE ÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilim ve TeknolojiAtatürk Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA KESKİNKILIÇ

  5. Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi

    Knowledge discovery in social networks using text mining techniques

    FATMA GÜLŞAH TAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ASIM SİNAN YÜKSEL