Geri Dön

IMDB movie rating prediction with feature extraction and machine learning methods

Özellik çıkarımı ve makine öğrenimi ile IMDB film puanı tahmini

  1. Tez No: 719239
  2. Yazar: AHMET FATİH DERELİ
  3. Danışmanlar: PROF. DR. SENİYE ÜMİT FIRAT, YRD. DOÇ. DR. CANAN AĞLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 48

Özet

Bu çalışmanın odak noktası, Uluslararası Film Veritabanı (IMDB) web sitesindeki filmlerin kullanıcı derecelendirmelerini tahmin etmektir. Bu çalışmada, özgün veri seti öznitelik çıkarma yöntemleri ile zenginleştirilmiştir. Tür, oyuncu, yazar ve yönetmen puanları çıkarılır ve doğruluğu artırmak için kullanılır. Derecelendirmeler üç kategoriye (düşük derecelendirme, orta derecelendirme ve yüksek derecelendirme) dönüştürülür ve bu kategoriler LightGBM, Lojistik Regresyon, Destek Vektör Sınıflandırıcı, Karar Ağacı Sınıflandırıcı, Rastgele Orman, Gaussian Naive Bayes, Çok Katmanlı Algılayıcı, k-nearest Neighbors algoritmaları ile tahmin edilir. Ensemble algoritması olarak adlandırılan bu algoritmaların kombinasyonları test edilmiş ve çalışmada en iyi performans gösteren kombinasyon kullanılmıştır. En iyi performans gösteren kombinasyonu değerlendirmek için iki tür oylama algoritması kullanılır, yumuşak oylama topluluğu ve sert oylama topluluğu. Daha sonra, veri setlerindeki dengesizlikleri ortadan kaldırmak için Sentetik Azınlık Aşırı Örnekleme Yöntemi (SMOTE) kullanılarak eğitim seti aşırı örneklenir. Kullanılan modellerin doğruluklarını hesaplamak için sınıflandırma doğruluğu, kesinlik, geri çağırma ve f1-skor gibi istatistiksel metrikler kullanılır. Modellerin karşılaştırılması ile en iyi yöntem önerilmiştir. Diğer çalışmaların yanı sıra, bu çalışma, daha iyi doğruluklar elde etmek için topluluk algoritmaları ve bireysel algoritmaların kombinasyonu ile tahmin etmeye odaklanmaktadır. Çalışmanın bir diğer farklılığı, bir film tahmin çalışmasında dengesiz verileri ortadan kaldırmak için SMOTE kullanılmasıdır.

Özet (Çeviri)

The focus of this study is to predict user ratings of movies on the International Movie Database (IMDB) website. In this study, original dataset is enriched with feature extraction methods. Genre, actor, writer and director ratings are extracted and used to improve accuracy. Ratings are transformed to three categories (low ratings, medium ratings and high ratings) and those categories are predicted with LightGBM, Logistic Regression, Support Vector Classifier, Decision Tree Classifier, Random Forest, Gaussian Naive Bayes, Multilayer Perceptron, k-nearest Neighbors algorithms. Combinations of those algorithms have been tested,which is called as ensemble algorithm, and best performing combination is used in the study. In order to evaluate the best performing combination, two types of voting algorithm are used, soft voting ensemble and hard voting ensemble. Then, training set is oversampled using Synthetic Minority Oversampling Method (SMOTE) to eliminate imbalances in the datasets. Statistical metrics such as classification accuracy, precision, recall and f1-score are used to calculate accuracies of the models used. Best method is proposed with the comparison of models. Apart from other studies, this study focuses on prediction with ensemble algorithms and combination of individual algorithms for achieving better accuracies. Another distinctness of the study is using SMOTE to eliminate imbalanced data in a movie prediction study.

Benzer Tezler

  1. Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

    Movie rating on tweets using natural language processing and data mining

    ABDOULAZIZ ABDOUKARIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BARIŞ KOÇER

  2. Pre-release forecasting of imdb movie ratings using multi-view data

    Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi

    BEYZA ÇİZMECİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  3. Gözetimli öğrenme yöntemlerinin kullanımı ile filmlerin IMDB puanlama sistemine göre derecelendirilmesini yapan modelin oluşturulması

    Creating a model that grades movies according to the IMBD scoring system using supervised learning methods

    OGTAY SAFARALİYEV

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÜYESİ PERİ GÜNEŞ

  4. Predicting box office movie revenue with machine learning methods

    Makine öğrenimi ile film hasılatı tahmini

    OĞUZ CAN KALKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TEVFİK AYTEKİN

  5. RS-DSINet: Tavsiye sistemleri derecelendirme problemi için geliştirilmiş yeni bir derin öğrenme modeli

    RS-DSINet: A new deep learning model developed for the rating problem of recommendation systems

    VEYSEL TÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHarran Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM BERKAN AYDİLEK