Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

Movie rating on tweets using natural language processing and data mining

PDF İndir

Tez No: 554898
Yazar: ABDOULAZIZ ABDOUKARIM
Danışmanlar: DOÇ. DR. BARIŞ KOÇER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Selçuk Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 79

Özet

Duygu Analizi (DA), metin madenciliği alanında devam eden bir araştırma dalıdır. DA, metnin görüş, duygu ve öznelliklerinin hesaplanması olarak da ifade edilebilir. Bu çalışmada DA, DA yaklaşımları, film değerlendirmesi ve film başarısı tahmini konularını ele alınmıştır. Bu amaçla çok sayıda teknik kullanılmıştır. Bu çalışmada makine öğrenim yöntemlerine ve twitter film incelemesinde uygulanan denetimli öğrenim yöntemlerine odaklanılmıştır. Bu çalışma ile, makine öğrenimi (MÖ) tekniklerini temel alan hesaplama yöntemlerinin geliştirilmesi önerilmiştir. Model oluşturmak ve oluşturulan bu model ile kişilerin görüşlerini sınıflandırmak için kullanılan alogritmalara girdi olarak Bag of Words'dan (BoW) gelen özellikleri kullanan bazı teknikler uygulanmıştır. BoW kelimelerden oluşan bir model, modellemede kullanım için, örneğin makine öğrenme algoritmaları gibi metinden özellikler çıkarmanın bir yoludur. Ön işleme süreci, özellik çıkarma ve önceden etiketlenmiş gözlemler ile sistemin eğitiminden oluşur. Oluşturulan modeller, yeni gözlemlerin duygularını tahmin etmek için kullanılmıştır. Vectorization kullanarak özellikleri çıkarılmıştır. Önişleme için, Regex ve Pandas gibi python kütüphaneleri kullanılmış ve tweet'leri bağlantılardan, özel karakterlerden, çift tweet'lerden vb. Temizlemeye yardımcı olmuştur. Amaç, ifade edilen bir görüşün olumlu mu yoksa olumsuz mu olduğunu bulmaktadır. Scikit-learn araçları bu amaç için kullanılmıştır. Önce modeller oluşturulup eğitilmiştir. Son olarak test veri setinin sınıfları tahmin edilmiştir. Test veri setinin duygusunu sınıflandırmak için, eğitim veri seti örneklerinin % 75'i eğitim seti olarak, % 25'i validasyon seti olarak kullanılmıştır. İlgili özellikler seçildikten sonra karar ağacı, gradyan artırma, lojistik regresyon ve rastgele orman sınıflandırma algoritmaları ile tek tek eğitilip sırasıyla % 70.88, % 81.86, % 85.66 ve % 85.36 doğruluk oranları elde edilmiştir. Bu yöntemlerin performansları, karışıklık matrisi kullanılarak karşılaştırılmıştır. Sonuçlar, Matplotlib ve Seaborn kütüphaneleri kullanılarak çizilmiştir. Duygu analizinden elde edilen bulgular, daha sonra film değerlendirmesi için kullanılmıştır. IMDB (veya İnternet Film Veri Tabanı, dünyadaki tüm ülkelerin ve dönemlerin film değerlendirmesi ve televizyon filmleri, film yıldızları ve TV dizileri hakkında çevrimiçi bilgi veritabanıdır) ve Rotten Tomatoes (ya da Çürük domates, film eleştirmenleri, film değerlendirmesi, oyuncular, yönetmenler, fragmanlar ve sinema haberleri için yerel bir web sitesidir) ile karşılaştırıldığında oldukça iyi sonuçlar elde edilmiştir.

Özet (Çeviri)

Sensitivity Analysis (SA) is an ongoing field of research in the field of text research. SA is the computational functioning of the text's view, emotion and subjectivity. In this study, we talk about SA, SA approaches, movie rating and movie success prediction. For this purpose, a large number of technics have been used to do SA. In our case we focus on machine learning methods and using the supervised learning methods applied on movie review on twitter. Through this project, we proposed the development of computational methods that are based on Machine Learning (ML) technics. We implement some technics that uses features got from bag of word (BoW) as input for our alogrithms in order to build model and then to classify the opinion of individuals. A bag-of-words model is a method of features extraction from text and those features will be used in modeling, such as with machine learning algorithms It consists of preprocessing, extracting features and training pre-labelled observations. The models built, were used to predict the sentiment of new observations unseen by them. We extracted features using vectorization. For preprocessing, libraries of python such us Regex and Pandas were used and helped to clean tweets from links, special characters, duplicate tweets etc... To perform the SA, the model built was used to automate the classification of sentiment from typically unstructured text. The goal is to find out whether an expressed opinion is positive, or negative. Scikit-learn tools were used for that purpose. We first import the models, then train them and finally predict the class of the test set. To classify the sentiment of the test set, 75 % of the samples were used as training set and 25% of the samples as validation set. After selecting the relevant features, the decision tree, gradient boosting, logistic regression and random forest classifiers have been applied, trained and we have obtained accuracy respectively 70.88%, 81.86%, 85.66% and 85.36%. We have been able to compare their performance using confusion matrix. The result were plotted using some Matplotlib and Seaborn libraries. The results got from the SA were then used for movie rating. And the results obtained when compared them with IMDB (it is an online database of information on film rating and television films, film stars and TV series of all countries and periods of the world. and Rotten Tomatoes (it is a local website for film critics, film rating, actors, directors, trailers and cinema news) were pretty good.

Benzer Tezler

Tez No
961173
Taxonomy and visualization of digital architecture knowledge: Proposal for a scientific online encyclopedia
Dijital mimarlık bilgisinin taksonomisi ve görselleştirilmesi: Bilimsel bir çevrim içi ansiklopedi önerisi
ESRANUR KARACİF
Doktora
İngilizce
2025
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. ETHEM GÜRER
Tez No
542902
Şirket misyon ve vizyon bilgilerinin veri madenciliği yöntemiyle incelenerek işletme performansı göstergeleri ile ilişkilendirilmesi
The relationship between company mission and vision information with company performance indicators with using data mining
YAVUZ OĞUZ İPEK
Yüksek Lisans
Türkçe
2019
İşletme Bahçeşehir Üniversitesi
İşletme Bilim Dalı
DOÇ. DR. MUHTEREM ŞEBNEM ENSARİ
Tez No
797723
Rasa chatbot integrated with natural language processing for apartment price prediction supported by web content mining
Web içeriği madenciliği tarafından desteklenen konut fiyat tahmini ile entegre edilen doğal dil işleme tabanlı rasa sohbet botu
SADİG HUSEYNLİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Üsküdar Üniversitesi
Yapay Zeka Mühendisliği Ana Bilim Dalı
PROF. DR. SERHAT ÖZEKES
Tez No
735469
Yazılım güvenlik açıklarının skorlanması ve kategorisinin belirlenmesinde yeni bir yöntem
A new method to determine scoring and category of software vulnerabilities
HAKAN KEKÜL
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURHAN ERGEN
Tez No
950068
Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
Doktora
İngilizce
2025
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MERAL EBEGİL

Geri Dön