IMDB movie rating prediction with feature extraction and machine learning methods
Özellik çıkarımı ve makine öğrenimi ile IMDB film puanı tahmini
- Tez No: 719239
- Danışmanlar: PROF. DR. SENİYE ÜMİT FIRAT, YRD. DOÇ. DR. CANAN AĞLAN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 48
Özet
Bu çalışmanın odak noktası, Uluslararası Film Veritabanı (IMDB) web sitesindeki filmlerin kullanıcı derecelendirmelerini tahmin etmektir. Bu çalışmada, özgün veri seti öznitelik çıkarma yöntemleri ile zenginleştirilmiştir. Tür, oyuncu, yazar ve yönetmen puanları çıkarılır ve doğruluğu artırmak için kullanılır. Derecelendirmeler üç kategoriye (düşük derecelendirme, orta derecelendirme ve yüksek derecelendirme) dönüştürülür ve bu kategoriler LightGBM, Lojistik Regresyon, Destek Vektör Sınıflandırıcı, Karar Ağacı Sınıflandırıcı, Rastgele Orman, Gaussian Naive Bayes, Çok Katmanlı Algılayıcı, k-nearest Neighbors algoritmaları ile tahmin edilir. Ensemble algoritması olarak adlandırılan bu algoritmaların kombinasyonları test edilmiş ve çalışmada en iyi performans gösteren kombinasyon kullanılmıştır. En iyi performans gösteren kombinasyonu değerlendirmek için iki tür oylama algoritması kullanılır, yumuşak oylama topluluğu ve sert oylama topluluğu. Daha sonra, veri setlerindeki dengesizlikleri ortadan kaldırmak için Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE) kullanılarak eğitim seti aşırı örneklenir. Kullanılan modellerin doğruluklarını hesaplamak için sınıflandırma doğruluğu, kesinlik, geri çağırma ve f1-skor gibi istatistiksel metrikler kullanılır. Modellerin karşılaştırılması ile en iyi yöntem önerilmiştir. Diğer çalışmaların yanı sıra, bu çalışma, daha iyi doğruluklar elde etmek için topluluk algoritmaları ve bireysel algoritmaların kombinasyonu ile tahmin etmeye odaklanmaktadır. Çalışmanın bir diğer farklılığı, bir film tahmin çalışmasında dengesiz verileri ortadan kaldırmak için SMOTE kullanılmasıdır.
Özet (Çeviri)
The focus of this study is to predict user ratings of movies on the International Movie Database (IMDB) website. In this study, original dataset is enriched with feature extraction methods. Genre, actor, writer and director ratings are extracted and used to improve accuracy. Ratings are transformed to three categories (low ratings, medium ratings and high ratings) and those categories are predicted with LightGBM, Logistic Regression, Support Vector Classifier, Decision Tree Classifier, Random Forest, Gaussian Naive Bayes, Multilayer Perceptron, k-nearest Neighbors algorithms. Combinations of those algorithms have been tested,which is called as ensemble algorithm, and best performing combination is used in the study. In order to evaluate the best performing combination, two types of voting algorithm are used, soft voting ensemble and hard voting ensemble. Then, training set is oversampled using Synthetic Minority Oversampling Method (SMOTE) to eliminate imbalances in the datasets. Statistical metrics such as classification accuracy, precision, recall and f1-score are used to calculate accuracies of the models used. Best method is proposed with the comparison of models. Apart from other studies, this study focuses on prediction with ensemble algorithms and combination of individual algorithms for achieving better accuracies. Another distinctness of the study is using SMOTE to eliminate imbalanced data in a movie prediction study.
Benzer Tezler
- Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi
Movie rating on tweets using natural language processing and data mining
ABDOULAZIZ ABDOUKARIM
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ KOÇER
- Pre-release forecasting of imdb movie ratings using multi-view data
Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi
BEYZA ÇİZMECİ
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Gözetimli öğrenme yöntemlerinin kullanımı ile filmlerin IMDB puanlama sistemine göre derecelendirilmesini yapan modelin oluşturulması
Creating a model that grades movies according to the IMBD scoring system using supervised learning methods
OGTAY SAFARALİYEV
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÜYESİ PERİ GÜNEŞ
- Predicting box office movie revenue with machine learning methods
Makine öğrenimi ile film hasılatı tahmini
OĞUZ CAN KALKAN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TEVFİK AYTEKİN
- RS-DSINet: Tavsiye sistemleri derecelendirme problemi için geliştirilmiş yeni bir derin öğrenme modeli
RS-DSINet: A new deep learning model developed for the rating problem of recommendation systems
VEYSEL TÜRK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHarran ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM BERKAN AYDİLEK