Metin madenciliği ve duygu analizi: IMDB en iyi üç filmin twitter yorumlarının analizi
Metin madenciliği ve duygu analizi: IMDB en iyi üç filmin twitter yorumlarinin analizi
- Tez No: 794584
- Danışmanlar: DR. ÖĞR. ÜYESİ ELİF TUNA
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 50
Özet
Çalışmada hedeflenen amaç Twitter Developer hesabı üzerinden R programlama dili kullanılarak IMDb“En iyi 250 Filmler”listesindeki ilk üç film olan Esaretin Bedeli, Baba ve Kara Şövalye filmlerinin Twitter gerçek kişi kullanıcılarının yorumlarına ait metin analizini elde etmektir. IMDb puanlamasına göre yüksek derecelendirilen filmlerin günlük konuşma metninde de duygu değerlerinin benzer olup olmadığı tespit edilmiştir. Çalışmada Twitter platformu üzerinden çekilen yapılandırılmamış verilerin R program dili kullanılarak metin ön temizleme işlemleri yapılmış, meta veri haline dönüştürülmüş ve elde edilen temiz veri üzerinden metin madenciliği yöntemleri olan tf-idf, N-gram modelleme ve duygu analizi incelemesi yapılmıştır. Her üç film için de elde edilen kelime bulutları ile kullanıcı yorumlarının duygu analizi incelenmiştir. Çalışmanın ilk bölümünde veri madenciliği, metin madenciliği, metin madenciliğinin uygulama alanlarından bahsedilmiştir. Çalışmamızda kullanılan tekniklere benzer çalışmaların literatür taraması yapılmıştır. Literatürde var olan çalışmaların katkısı ve inceledikleri uygulamadan bahsedilmiştir. Tezin amacına yer verilmiştir. Twitter verilerine ulaşmak için kullanılan Twitter Developer hesabının nasıl elde edildiğini, aşamalarını ve elde edilen kullanıcı hesabı ile ulaşılan API ve şifre detayları hakkında bilgi verilmiştir. İkinci bölümde metin madenciliği metodolojisine yer verilmiştir. Yapılandırılmamış olan metinlerin ön temizleme işleminin nasıl yapıldığına dair bilgi verilmiştir. Yapılandırılmış verilere metin madenciliği tekniklerinden tf-idf, N-gram yoluyla kelimeler arasındaki ilişki ve korelasyon hesaplaması tekniklerinin teorilerinden bahsedilmiştir. Elde edilen temiz veriye duygu analizi tekniklerinin uygulaması ve kelime bulutlarının oluşturulması konuları ele alınmıştır. Çalışmanın üçüncü bölümünde uygulamaya yer verilmiştir. Uygulamada Twitter verilerinin üç ayrı film için yapılandırılmamış metin verilerine ulaşılmıştır. Elde edilen temiz veriye duygu analizi teknikleri uygulanmıştır ve kelime bulutları oluşturularak görselleştirilmiştir. Çalışmanın üçüncü bölümünde uygulamaya ve son bölümde elde edilen sonuç ve değerlendirmeye yer verilmiştir.
Özet (Çeviri)
The aim of this study is to obtain a text analysis of the comments of Twitter users (by filtering out bot account) on the first three movies in the IMDb“Top 250 movies”list, namely The Shawshank Redemption, The Gotfather and The Dark Knight, using the R programming language on the Twitter Developer account. It has been determined whether the emotional values of the movies that are rated high according to the IMDb scoring are similar in the daily speech text or not. In the study using the R programming language, the unstructured data captured from the Twitter platform were applied text pre-cleaning process, thereafter processes of transforming into metadata, text mining methods were carried out on the obtained clean data. In the first part of the study, data mining, text mining, application areas of text mining are mentioned. A literature review of the studies similar to the techniques used in our study was conducted. The contribution of the existing studies in the literature and the application they examined are mentioned. The purpose of the thesis is mentioned. Information were given on how the Twitter Developer account that is used to access Twitter data was obtained, the stages of obtaining the account and the API and password details accessed with the obtained user account. In the second part, text mining methodology is mentioned. Information on how to pre-clean the unstructured text is given. Structured data, text mining techniques tf-idf, the relationship between words through N-gram and the theory of correlation calculation techniques are mentioned. The application of sentiment analysis techniques to the clean data obtained is discussed and visualized by creating word clouds. In the third part of the study, the application is mentioned. In the last section, the results and evaluation are summarized.
Benzer Tezler
- Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi
Movie rating on tweets using natural language processing and data mining
ABDOULAZIZ ABDOUKARIM
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ KOÇER
- Duygu analizi ve metin madenciliği yöntemleriyle hizmet kalitesi ölçüm modeli önerisi: Ankara Büyükşehir Belediyesi örneği
Service quality measurement model proposal using sentiment analysis and text mining methods: The case of Ankara Metropolitan Municipality
ERHAN SUR
Doktora
Türkçe
2024
Yönetim Bilişim SistemleriGazi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN ÇAKIR
- Sosyal medya üzerinden metin madenciliği ve duygu analizi ile pazar değerlendirme
Market analysis based over social networks using text mining and cluster analysis
HATİME DİLEK BEYHAN
Yüksek Lisans
Türkçe
2014
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BAŞAR ÖZTAYŞİ
- Twitter'da metin madenciliği ve duygu analizi ile uzaktan eğitim memnuniyetinin incelenmesi
Examination of distance education satisfaction with text mining and sentiment analysis on Twitter
AHMET EMRE ÖZ
Yüksek Lisans
Türkçe
2023
Bilim ve TeknolojiAtatürk ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA KESKİNKILIÇ
- Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi
Knowledge discovery in social networks using text mining techniques
FATMA GÜLŞAH TAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ASIM SİNAN YÜKSEL