Geri Dön

Pre-release forecasting of imdb movie ratings using multi-view data

Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi

  1. Tez No: 526560
  2. Yazar: BEYZA ÇİZMECİ
  3. Danışmanlar: PROF. DR. ŞULE ÖĞÜDÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Günümüzde internet kullanıcıları artık sadece internet sitelerini ziyaret eden taraf değil aynı zamanda bu sitelerin içeriklerini oluşturan ya da oluşturulmasına katkı sağlayan taraf haline geldi. İnternet kullanımının yaygınlaşmasıyla özellikle sosyal medya gündelik hayatın önemli bir parçasını oluşturmaya başladı. Sosyal medya kullanıcıları çeşitli platformlarda güncel konular üzerine düşüncelerini, satın aldıkları ürünlerle ilgili görüşlerini, yakın zamanda gösterime girmiş filmler hakkındaki eleştirilerini, turistik gezileri esnasında elde ettikleri deneyimlerini, siyasi fikirlerini ve bunlar gibi çeşitli ve önemli kişisel düşüncelerini paylaşarak bilerek ya da farkında olmaksızın bu platformlar üzerinde muazzam büyüklükte bir veri oluşmasına sebep olmaktadırlar. Böylesine büyük ölçekli bir verinin varlığı ise çeşitli alanlardan birçok araştırmacının ilgisini çekmektedir. Araştırmacılar bu büyük verileri analiz ederek faydalı ve işlevsel sonuçlar elde etmeyi amaçlamaktadırlar. Bu analizlere dayalı tahmin sistemleri uygun şekillerde tasarlandığı takdirde geleneksel istatistiksel yöntemlere kıyasla çok daha doğru ve kesin sonuçlar verebilir. Tasarlanan bu sistemler, şehir trafiğini tahmin etme, haber popülerliğini saptama gibi gündelik hayatı kolaylaştırıcı kararlara yardımcı olmanın yanı sıra kur hareketlerinin kestirimi ya da seçim sonuçlarının tahmini gibi finans ve siyaset gibi farklı alanlarda da kullanılabilir. Gittikçe büyüyen ve küresel pazarda milyarlarca dolar gelirle çok önemli bir paya sahip olan film endüstrisi de bu tahmin sistemlerinin kullanılmasıyla faydalı çıkarımlarda bulunulabilecek önemli alanlardan biridir. Böylesine büyük bir endüstri için üretilecek filmin ne kadar kazandıracağının önceden tahmin edilebilmesi oldukça önemlidir. Toplam gelirin çoğunun üretilen filmlerin oldukça düşük bir yüzdesi tarafından oluşturulduğu ve üretilen filmlerin çoğunun zarar ettiği bu milyar dolarlık sektörde kârlı bir film yapmak oldukça önemlidir. Gişe/başarı tahmini sayesinde karlılığın artırılması ihtimali sektördeki karar alıcıların ilgisini çekmektedir. Buna göre, bir filmin daha fazla izlenmesini dolayısıyla daha fazla kazandırmasını sağlayan faktörlerin filmin gösterime girmesinden önce tespit edilmesi, film yapımcılarının ve diğer karar alıcı kişilerin karlılığı artırmak adına daha uygun kararlar almalarına yardımcı olabilir. Örneğin, başarılı olacağı tahmin edilen bir filmin gösterimi için daha fazla salon kiralanması durumunda daha fazla izleyiciye ulaşılacağı için gişe gelirleri artacaktır. Aksine, başarısız olacağı tahmin edilen bir film için ise daha az sayıda salon kiralamaya karar vermek zararın azaltılmasına yardımcı olabilir. Bütün bu nedenlerden dolayı filmin başarısının tahmin edilebilmesi bu endüstri için çok önemli bir adımdır. Ancak izleyicilerin seyir zevki oldukça öznel bir alan olduğundan bu tahmin aşaması oldukça zordur. Şimdiye kadar film başarısının tahmini için geleneksel yöntemlerden yararlanılmış olsa da bu yöntemler böylesine karmaşık bir tahmini gerçekleştirmek için yetersiz kalmaktadır. Son çalışmalar veri madenciliği ve makine öğrenme yöntemlerinin geleneksel yöntemlere göre çok daha doğru sonuçlar verdiğini göstermiştir. Böylece gösterime girmeden önce filmin başarısını tahmin etmek bilgisayar bilimcileri için de ilgi çekici bir araştırma alanı haline gelmiştir. Makine öğrenmesi, eğitim verisi olarak da adlandırılan mevcut verileri kullanarak belirli bir görev üzerindeki performansın geliştirilmesine yoğunlaşan bir bilgisayar bilimi alanıdır. Bu alanda amaç, geçmiş deneyimlerden çıkarımlar yapmak için matematiksel modeller yaratmaktır. Makine öğrenmesi, bu modelleri oluşturmak için istatistik bilimi yöntemlerinden yoğun bir şekilde yararlanır. Başka bir deyişle makine öğrenmesi, eğitim verisini kullanarak bu matematiksel modellerin parametrelerini iyileştirmeye çalışır. Çoğu zaman makine öğrenmesi veri madenciliği ile birlikte anılır. Veri madenciliği ise makine öğrenme yöntemlerinin büyük veri kümeleri üzerinde uygulanmasıdır. Finans sektöründeki dolandırıcılıkların tespit edilmesinden konut fiyatlarının tahmin edilmesine, tıbbi araştırmalardan otonom araçlara kadar veri madenciliğinin oldukça geniş bir uygulama alanı vardır. Film endüstrisi özelinde film başarısının tahmin edilmesi de veri madenciliğinin kapsamına giren bu çeşitli alanlardan biridir. Şimdiye kadar bu alanda farklı çalışmalar yapılmasına rağmen film başarısının tahmin performansını artırmak için halen yeni ve farklı çalışmaların yapılmasına ihtiyaç vardır. Ayrıca, şimdiye kadar yapılmış çalışmaların birçoğu bu başarı tahmin problemini gişe hasılat tahmini olarak ele almış ve bu problemi de bir sınıflandırma problemine dönüştürerek incelemiştir. Bununla birlikte film izleyicilerinin beğenisini tahmin etmek için pek fazla çalışma yapılmamıştır. Ayrıca, mevcut birçok çalışma kapsamında yeterli ve güncel veri toplanamamıştır. Bu çalışmanın amacı film izleyicilerinin filmler için verecekleri oyların, o filmin gösteriminden önce tahmin edilebilmesidir. Diğer bir deyişle bu regresyon problemini çözmek için etkili bir model oluşturmak olduğu da söylenebilir. Film izleyicilerinin vereceği oyların tahmin edilmesi bir regresyon problemidir çünkü tahmin edilecek değer, sınıflandırma problemlerinde olduğu gibi ayrık bir değer yerine bir sayılabilir değerdir. Bu çalışma, farklı veri kaynaklarının bir araya getirilmesi ve faktörizasyon makineleri gibi özgün makine öğrenme yöntemlerinden birinin kullanılarak performans sonuçlarının iyileştirilmesiyle daha önceki çalışmaları bir adım daha ileri götürmeyi amaçlamaktadır. Bu çalışmada, gösterime girecek yeni filmlerin meta verilerini, sosyal medya verileriyle birleştirerek ve faktörizasyon makineleri yöntemini çeşitli makine öğrenme yöntemleriyle karşılaştırarak henüz gösterime girmeden filmin IMDb oylama değerini tahmin etmek amaçlanmıştır. Ayrıca, bu tahmin süreci üzerinde hangi özelliklerin daha fazla etkiye sahip olduğu ve farklı veri kaynaklarından gelen bu özelliklerin bir arada nasıl kullanılabileceği araştırılmıştır. Bu çalışmada, film gösterime girmemişken izleyiciler tarafından oluşturulacak filmin IMDb oyunun tahmin edilmesi problemini çözmek ve sonuçları önerilen faktörizasyon makineleri yaklaşımıyla karşılaştırmak için çok bilinen çeşitli tahmin algoritmaları kullanılmıştır. Doğrusal regresyon, destek vektör regresyonu, k-en yakın komşular regresyonu, çok katmanlı algılayıcı regresyonu, rasgele orman regresyonu ve gradyan artırma regresyonu, bu çalışma boyunca karşılaştırma için kullanılan tahmin algoritmalarındandır. Bu çalışmada, filmlerin oylarının gösterimlerinden önceki tahminlerinin doğruluğunu arttırmak için film meta verilerini sosyal medya verileriyle birleştiren faktörizasyon makinelerine dayalı yeni bir yaklaşım geliştirilmiştir. Faktörizasyon makineleri, matris faktörizasyon modellerinin genişletilmiş bir versiyonudur. Faktörizasyon makineleri, matris faktörizasyon modellerinin dezavantajlarından kurtulmak için destek vektör makineleri ve lineer regresyon gibi ile tipik makine öğrenmesi yaklaşımlarıyla matris faktörizasyonu yönteminin avantajlarını birleştirmiştir. Faktörizasyon makineleri hem sınıflandırma hem de regresyon problemlerini çözmek için kullanılabilir. Çalışma sırasında film meta verilerini ve sosyal medya verilerini bir arada içeren mevcut bir veri kümesine rastlanmamıştır. Ayrıca, filmlerle ilgili istenilen verilerin farklı kaynaklardan birleştirilerek toplanabileceği herhangi bir uygulamaya rastlanmamıştır. Bu nedenle, sosyal medya da dahil olmak üzere farklı kaynaklardan veri toplayabilmek ve böylelikle her seferinde ihtiyaca uygun özel bir veri tabanı oluşturulabilmesini sağlamayacak bir yazılımın geliştirilmesi, bu çalışmanın ilk adımı olmuştur. Bu yazılım sayesinde filmin gösterim tarihi, filmde konuşulan diller ve gösterime gireceği bölge gibi parametrelerin ayarlanmasıyla ihtiyaca özel ve daha fazla veri toplamak mümkün hale geliyor. Bu yazılımın geliştirilebilmesi için TMDb, IMDb, Twitter ve Vikipedi gibi birçok farklı veri kaynağı kullanıldı. Bu kaynaklar, verileri yaygın metin dosya formatları ile kolay bir şekilde sunmak yerine, farklı kısıtlara ve erişim yöntemlerine sahip uygulama programlama arayüzleri sunmaktadır. Bu nedenle, çalışma boyunca bu arayüzlere erişmek için farklı küçük yazılımlar geliştirilmiştir. Bu, gösterime girmemiş filmlerin oylarının tahmini probleminde faktörizasyon makineleri yaklaşımının, farklı özellik kümelerinin bir araya getirilmesiyle kullanılmasının tahmin performansını etkileyip etkilemeyeceği araştırılmıştır. Bu nedenle, hangi özellik grubunun daha iyi performansa yol açacağına karar vermek için özellikler, veri kaynaklarına göre meta veriler ve sosyal medya verileri ve veri türlerine göre de sürekli ve ayrık değerler olmak üzere gruplandırılmıştır. Sonuçta, bu gruplama işlemine göre makine öğrenmesi modellerini beslemek üzere kullanılacak 6 farklı özellik kümesi oluşturulmuştur. Çok değişkenli doğrusal regresyon, uygulaması ve yorumlaması kolay olduğu ve önceki çalışmaların çoğunda kullanıldığı için, faktörizasyon makineleri yaklaşımının performans sonuçlarının karşılaştırılmasında temel karşılaştırma yaklaşımı olarak seçilmiştir. Performans ölçümlerini hesaplamak için eğitim verilerini rastgele bölen 10 kat geçerlilik sınaması yaklaşımı kullanıldı. Performans ölçümleri, bu katlardan elde edilen ölçümlerin ortalaması alınarak hesaplandı. Performans ölçümü olarak her ikisi de en yaygın performans değerlendirme ölçümlerinden olan ortalama karesel hata (MSE) ve belirleme katsayısı (R2 skoru) ölçümleri kullanıldı. Film meta verileri ve sosyal medya verilerinin bir arada olduğu ve hem sürekli hem de ayrık değişkenleri içeren veri kümesinin faktörizasyon makineleri yaklaşımı kullanılarak en iyi performans ölçümlerini MSE 1.19 ve R2 skoru 0.88 olmak üzere verdiği görüldü. Doğrusal regresyon yaklaşımı ile karşılaştırıldığında faktörizasyon makineleri yaklaşımının kullanılmasıyla sonuçlarda iyileşme olduğu fakat, bu yaklaşımın hala geliştirilmeye ihtiyaç duyduğu görülmüştür. Deneysel sonuçlar, faktörizasyon makineleri yaklaşımının sürekli ve ayrık meta veri özelliklerinin birlikte kullanılmasının performansı artırdığını göstermektedir. Filmlerin meta verilerinin ve sosyal medya verilerinin kombinasyonun, performans sonuçlarını çok az değiştirdiği gözlenmiştir. Faktörizasyon makineleri yaklaşımı, filmlerin meta verileri ve sosyal medya verilerinin içindeki gizli faktörleri tanımlayabileceğinden film tahmini için de ümit verici sonuçlara sahiptir. Bu çalışmada önerilen yöntemin, geleneksel yöntemlere kıyasla tahmin doğruluğunu artırdığı gözlenmiştir. Sonuç olarak bu tez çalışmasında, sosyal medya verileri de dahil olmak üzere farklı veri kaynaklarının bir araya getirilmesi ve faktörizasyon makineleri gibi farklı makine öğrenme metotlarının karşılaştırılmasıyla henüz gösterime girmemiş filmlerin izleyici oylarının tahmin edilmesi ve böylelikle daha önce yapılan çalışmaların ilerletilmesi amaçlanmıştır. Ayrıca, filmlerin izleyici oylarının tahmininde hangi özelliklerin daha fazla etkiye sahip olduğu ve farklı veri kaynaklarından gelen bu özelliklerin birlikte nasıl kullanılabileceği araştırılmıştır. Farklı kaynaklardan veri toplamak ve güncel filmleri içeren özel bir veri tabanı oluşturmak için bir program geliştirilmiştir. Bu çalışmada sunulan yöntemle geleneksel yöntemlere kıyasla performansın artırıldığı gösterilmiştir.

Özet (Çeviri)

Internet users are no longer the ones who only follow the content, but at the same time they have become the ones who create the content itself. Especially, the social media has become a crucial part of everyday life. This results in having a huge digital footprint for the people on the internet either willingly or unintentionally. People provide enormous data such as thoughts on the current issues, comments on an owned product, opinions about a recently released movie, experiences about the visited places, the political views, and so much more different topics thanks to sharing almost everything on these social media platforms. The existence of such large-scale data attracts many researchers from different areas in order to produce useful outcomes by analyzing it. If such an analysis system is designed properly, it could produce more accurate and precise results than the traditional methods like analyzing the output of the surveys using statistical techniques. These systems could be used in everyday fields such as predicting the urban traffic, detecting the news popularity, the likability of a new product coming onto the market, as well as in the fields like financial sector and politics. Making inferences using such systems have become quite important also for the ever-growing film industry. The film industry has a very important share in the global market, with billions of dollars revenue per year. Therefore, it is very important to increase the profit by predicting the movie success before its release. However, most of the total revenue is generated by the only a very low percentage of films. This also means that most films make a loss. In such a billion-dollar industry, it becomes very significant to make a profitable film. From the film industry's point of view, achieving the knowledge of which factors make a film high grossing is very crucial. Detecting those factors before the release of the movie could help the film producers and the other decision-making people to make more appropriate decisions such as deciding the theater's count in which the movie plays or increasing the promotions to raise the revenue. For instance, it could be expected that the revenue will increase if more theater rents for a movie that is predicted to become successful since more audience could watch this movie. On the contrary, deciding to rent less theater for a movie predicted to become unsuccessful could help to reduce the loss. For all these reasons, predicting the box office gross, hence the success of a movie is a very important step in the film industry. It could be assumed that there is a correlation between the box office gross and movie success. As the success of the film increases, the box office gross also increases. However, this prediction is very challenging because it is difficult to distinguish the factors making a movie successful, and detecting the people's opinion is a very subjective issue. Such predictions could be made by using traditional methods like the Hollywood Stock Exchange. However, these conventional methods are incapable to carry out such a complicated task. Recent studies showed that data mining and machine learning methods yield more accurate results. Thus, forecasting the success of a pre-release movie has become an intriguing research area also for the computer scientists. Machine learning is a computer science field to improve performance on a specific task using existing data, which is also called training data. The aim is to create mathematical models to make inferences from these past experiences. Machine learning heavily makes use of the methods from statistics in order to build these models. In other words, machine learning involves the optimization processes of the parameters of these mathematical models using the training data. Most of the time machine learning is associated with data mining. Data mining is the application of machine learning methods on large datasets. There is a wide range of application fields of data mining, from detecting the frauds in the finance sector to predicting the house prices for real estate agents; from the medical researches to autonomous vehicles. Predicting movie success for the film industry is one of these various fields too. Predicting the audience ratings of movies before their releases underlies this study. It could be also said that the aim of this study is to build an effective predictive model to solve this regression problem. It is a regression problem because the predicted movie audience rating value is a scalar value rather than a discrete value as in classification problems. Although there are different studies in this field, some of them only utilized from metadata of the movie, whereas recent studies focused on gathering these metadata with social media data to improve prediction results, it is still needed to make extensive analysis and increase performance for predictions. Also, many of the studies explored the box office prediction performance either treated it as a classification or regression problem. However, there were few studies on predicting the taste of movie audiences. Furthermore, many existing studies did not collect enough and recent data. This study aims to take previous studies a step further by finding a proper way to bring together different data sources and increasing the performance results by utilizing different machine learning methods such as Factorization Machines. In this study, it is aimed to explore the use of Factorization Machines in order to predict movie success by predicting IMDb ratings of newly released movies and compare it with different machine learning methods by combining movie metadata with social media data. Also, it is investigated which features have more impact on the movie rating prediction process and how these features coming from different data sources could be used together. Several prediction algorithms were used to solve the movie audience rating prediction problem and to compare the results with the proposed Factorization Machines approach. Linear Regression, Support Vector Regression, K-nearest Neighbors Regression, Multilayer Perceptron Regression, Random Forest Regression, and Gradient Boosting Tree Regression are the predictions algorithms that were used for comparison throughout this study. In this study, a novel approach was developed based on Factorization Machines which combines movie metadata with social media data in order to improve the prediction accuracy of movie ratings before its release. Factorization Machines are an extended version of factorization models. Factorization Machines could combine the advantages of typical machine learning approaches like Support Vector Machines and Linear Regression with factorization models in order to get rid of the drawbacks from these methods. Factorization Machines could be applied both classification and regression problems. There is not an existing dataset which includes the movie metadata and social media data as required. Also, there is not any framework to gather movie data from different sources. Therefore, a framework was developed to gather data from different sources and generate a custom database as the first step of this study. It becomes possible to gather more data by adjusting the input parameters like release date range, language, and region thanks to this framework. Many different data sources such as TMDb, IMDb, Twitter, and Wikipedia were used. These sources provide APIs in order to access their data with specific parameters instead of providing the data with easy-to-use certain text file formats. Therefore, different wrappers were developed for accessing these APIs throughout this study. In this study, it was also explored that how using different feature sets together affects the prediction performance, while exploring the effect of using Factorization Machines approach on this regression problem. Therefore, the features were grouped by their data sources, metadata and social media, and their data types, continuous and discrete values, in order to decide which group of data results in better performance. After all, 6 different feature sets were used to feed the models according to this grouping process. Multivariate Linear Regression is used in many previous studies since it is easy to implement and interpret. Therefore, Multivariate Linear Regression method is selected as the baseline method for performance comparisons with Factorization Machines. In order to calculate performance metrics, 10-fold cross-validation was used by randomly dividing the training data. The performance metrics were calculated as the average of the metrics from these folds. The mean square error (MSE) and coefficient of determination (R2 score), both are the most common performance evaluation metrics, were used as the performance metrics. The best performance metric was achieved an MSE 1.19 and R2 score 0.88 by using the Factorization Machines approach with both continuous and discrete features together for movie metadata and social media. Although there is an improvement by using Factorization Machines approach compared with Linear Regression approach, it is still needed to be enhanced. The experimental results show that Factorization Machines approach increases the performance using continuous and discrete metadata features together. The combination of movie metadata and social media data slightly changes the performance for predicting movie rating outcomes. Factorization Machines approach has also promising results for movie rating prediction as it can characterize latent factors for movie metadata and social media data. Our proposed method improves the prediction accuracy compared to the traditional methods.

Benzer Tezler

  1. Uydu görüntü verileri kullanılarak orman yangın şiddeti ve yangın sonrası durumun zamansal olarak incelenmesi : Akdeniz bölgesi örneği

    Using satellite image data for detecting forest burn severity and evaulating post-fire temporal status: Mediterrenean region sample

    HASAN TONBUL

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞİNASİ KAYA

  2. Short term electricity consumption prediction with neural networks

    Yapay sinir ağları ile kısa dönemli elektrik tüketimi tahminlemesi

    MEHMET ALİ HALAÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN AYVAZ

  3. Derin öğrenme yöntemleri ile zaman serisi tahmini

    Time series classification with deep learning methods

    HAKAN GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  4. Türkiye'de doğada yaşayan şahinlerin (buteo SP- buteo buteo, buteo rufinus, buteo lagopus) hematolojik ve biyokimyasal değerlerinin belirlenmesi

    Determination of hematological and biochemical parameters in free-ranging buzzards (buteo sp- buteo buteo, buteo rufinus, buteo lagopus) in Turkey

    DUYGU ALDEMİR

    Doktora

    Türkçe

    Türkçe

    2019

    Veteriner HekimliğiBursa Uludağ Üniversitesi

    İç Hastalıkları (Veterinerlik) Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN CİHAN

  5. Software defect prediction using call graph based ranking (CGBR) framework

    Çağrı grafiklerine dayalı sıralama çerçevesini kullanarak yazılım hata kestirimi

    GÖZDE KOÇAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. AYŞE BAŞAR BENER