Geri Dön

A support decision system for predicting rating values of preproduction TV content: An explainable machine learning approach

Yayınlanmamış TV içeriğinin reyting değerinin tahmin edilebilmesi için karar destek sistemi: Bir açıklanabilir makine öğrenimi yaklaşımı

  1. Tez No: 865036
  2. Yazar: BURAK BATIBAY
  3. Danışmanlar: PROF. DR. ATABEY KAYGUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 139

Özet

Günümüzde son yıllarda hızla artan dijitalleşmenin de etkisiyle yapay zekâ çağında makine öğrenimi ve otonom sistemler her alanda olduğu gibi yayın sektöründe de etkisini ve kapsam alanını artırmaktadır. Rekabete dayalı sistemlerde, gerçekleşmesi beklenen durumların önceden gerçeğe en yakın şekilde simultane edilmesi veya öngörülerde bulunulması stratejik ve bütçesel planlamaların yapılması adına oldukça önemlidir. Yayın sektöründeki alışkanlıkların giderek dijitalleşmeye uygun şekilde değişmesi, yayınlanacak içeriklerin de farklılaşmasına ve alternatiflerinin çoğalmasına yol açmaktadır. Özellikle yayın sezonu olarak adlandırılan dönemlerde proje olarak konulmuş bir senaryonun planlanmasının yapılması için farklı seçimler üzerinden alacağı reyting değerinin öngörülerek bu sonucun açıklanabilir düzeyde yapımcıya sunulması hem bütçesel olarak hem de stratejik olarak çok yönlü incelenmesine olanak sağlamaktadır. Dolayısıyla yayına girmesi beklenen bir senaryonun öngörülen başarı durumu, reyting metriği üzerinden değerlendirilerek çeşitli eylem planlarının oluşmasına somut bir ortam hazırlar. Bir yayın içeriğinin yayın sırasında ve ölçüm zamanında rassal ve gizli olarak dağıtılmış ölçüm cihazlarından aldığı paya reyting değeri denir. Söz konusu ölçüm cihazlarının sadece açık olan televizyon başına oranına TVR değeri, TVR değerinden aldığı paya ise paylaşım (share) değeri denir. Dolayısıyla başarı metriği olarak esas alınan reyting tek başına değil, TVR ve share değerleri ile ilişkilendirilerek incelenmektedir. Ancak günümüzdeki reyting ölçümleri sadece reyting yani içeriklerin belirli bir süre yayınlanması sırasında izleyici reaksiyonları ile ölçülebilmektedir. Bu sebeple günümüzdeki çalışmalar ve eksiklikler göz önünde bulundurulduğunda yayın içeriğinin sahip olacağı reyting değerinin, içerik yayınlanmadan tahmin edilmesini, tahmin edilen değerin hangi durumlardan veya koşullardan ne kadar ve nasıl etkilendiğinin belirlenmesini, söz konusu durumun sonraki aşamada rakip analizleriyle gerçeğe uygun şekilde yeniden değerlendirilmesini ve raporlanmasını sağlayan bir sisteme ihtiyaç vardır. Bu tez kapsamında gerçekleştirilen çalışmanın ele aldığı problemler, yayın içeriklerinin geçmiş reyting değerleri ile hem yayın kanalının hem de izleyici kitlesinin karakteristik özellikleri baz alınarak bir yayın içeriğinin ortalama izlenme oranlarının yani reyting değerlerinin içerik yayınlanmadan tahmin edilmesini, tahmin edilen değerin hangi durumlardan veya koşullardan ne kadar ve nasıl etkilendiğinin belirlenmesini, rakip analizi ile gerçeğe daha yakınsayan bir simülasyon ortamında değerlendirilmesini ve raporlanmasını sağlayan makine öğrenmesi temeline dayalı bir karar destek sistemi oluşturma ihtiyacını gidermektir. Çalışma sırasında geçmiş yedi yıl boyunca kullanıcı alışkanlıklarını dikkate alarak, masadaki içeriğin yayına girmeden gelecekte alacağı reyting değerini tahmin etmek, geçmiş derecelendirme değerlerini ve hem yayın kanalının hem de izleyici kitlesinin karakteristik özelliklerini göz önünde bulundurmayı gerektirir. Çalışmamız, temel olarak beklenen derecelendirme öngörüsünün yapılmasına ve tahmin edilen değerin çeşitli durumlar veya koşullar tarafından nasıl etkilendiğinin anlaşılabilir bir şekilde açıklanmasına odaklanmaktadır. Farklı birimler arasındaki ilişkilerin tutarlılığını ve karşılaştırılabilirliğini sağlamak, yayına girmeye hazırlanan içerik için beklenen derecelendirme değerinin tahminini destekler. Ayrıca, yapım şirketlerinin farklı seçenekleri içten içe karşılaştırarak bütçe eylem planlarını formüle etmesine olanak tanır.Masadaki senaryo değerini karşılaştırılabilir bir yapıda bilme, mevcut kaynakların optimal yönetimini sağlar ve performansı artırmak veya azaltmak için hareket ederek kaynak yönetiminin standardizasyonunu sağlar. Yayın içeriğinin temel unsurları arasında yayın türü, oyuncu seçimi, yönetmen, yapım şirketi ve senarist seçimleri, yayın saati ve süresi, yayın dönemine girişin planlanan tarihi, izleyici oranlarını etkileyebilecek yayın günündeki beklenen hava koşulları ve farklı etkinlikler (milli maçlar vb.) yer almaktadır. Reyting tahmin etmek, ilk adımda, geçmiş yıllara dayalı olarak her kanal için ilişkiler ve hipotezler oluşturmayı içerir. Kullanıcı alışkanlıklarına ve her kanal için verilere dikkat edilir ve her kanal ve içerik türü için aylık, günlük veya saatlik aralıklara göre ortalama, toplam ve değişkenler gibi nicel özellikler göz önünde bulundurularak işlenir. Her oyuncunun sisteme giren geçmiş derecelendirme değerleri de bu süreçlere dahil edilir. Benzer bir süreç, her yapım şirketi, yönetmen veya senarist için de uygulanır. Her kullanıcı girdisi için değişen değerler, daha önce belirtilen temel hesaplanmış değerlere eklenir. Yüksek bir derecelendirme sonucunun tahmini, öne sürülen hipotezlerin doğruluğunu sağlamak için iç denetimlere ve istatistiksel testlere tabi tutulur; çünkü tahmin edilen ve gerçek değerler arasındaki sapma oranına orantılı olarak orantısız bir yüksek sonuç, önemli bütçe kayıplarına neden olabilir. İç denetimler ve istatistiksel testler aracılığıyla hipotezlerin doğruluğuna dikkat edilir, çünkü gerçek değerden sapmanın orantısına göre yüksek bir derecelendirme tahminine ulaşmak, önemli bütçe kayıplarına yol açabilir. Çalışmamız üç ana bileşenden oluşmaktadır: veri toplama ve detaylı analiz, toplanan verilerden ve bu verilerden elde edilen bağlamsal bilgilerden yararlanarak model oluşturma ve son kullanıcılar için bir arayüz aracılığıyla modelin etkileşimli olarak dağıtılması. Analiz, son yedi yılda yayın endüstrisindeki ana akım derecelendirme raporlarından gelen ilgili derecelendirmeler, TVR ve Pay değerlerinin yanı sıra dizi adlarının incelenmesiyle başlar. Açık kaynaklı veri ve sosyal medya verileri, veri setini zenginleştirmek için kullanılmıştır. Son yedi senelik periyotta alınan yayın raporlarındaki günlük derecelendirme verileri diğer kaynaklarla uyumlu hale getirilmiştir. Farklı derecelendirme segmentlerindeki derecelendirme verilerinin analizi yapılmıştır. Günlük reyting raporlarından alınan veriler, IMDB'nin verileriyle eşleştirilerek içeriğin başlangıç ve bitiş yılları, süresi, türü, IMDB derecesi, oyuncu kadrosu, senarist, yönetmen, yapımcı ve müzik yapımcısı gibi bilgiler elde edildi. Oyuncular ve dizilerle ilgili trendleri toplamak için Google Trends'ten oyuncuların arama sıklığı, Instagram'daki takipçi sayısı ve oyuncular hakkındaki yorumlar da dahil olmak üzere Ekşi Sözlük sitesinden alınan veriler toplandı, bu verilere duygusal analiz de dahil edildi. Toplanan her veri parçası bir araya getirilerek ilişkisel veritabanı oluşturulmuştur. Toplanan bu veriler yapısal formlarda depolanır, birbirleriyle eşleştirilir ve her yeni içerik tanıtıldıktan sonra haftalık olarak güncellenir. Bu nedenle, bu ilişkisel veritabanını oluşturmak, güncel tutmak için otomasyon tanımlamak ve veriler arasındaki ilişkilere dayalı olarak kurulan ilişkiler ve hipotezler aracılığıyla doğruluğu ve tutarlılığı sürekli olarak incelemek hayati öneme sahiptir. İçeriğin tahmini reyting değeri, farklı özelliklere sahip birçok bağımsız değişkene ve farklı koşullara bağlı olduğundan, kmodelin arka uç kısmında Ensemble Öğrenme temelli bir güçlendirme algoritmasının kullanılmasının gerekliliğini çıkardık. Ancak, model seçim aşaması, deneysel bazda hangi modelin neden uygulanıp uygulanmayacağını çıktılarından hareketle belirleyerek aşamalı bir şekilde model arama mantığı kullanılarak gerçekleştirildi. Dolayısıyla geleneksel regresyon modelleri ve birliktelik kurallarına bağlı modeller denendi ve neden uygun olmayabileceklerini analiz ederek, bu analiz sonuçlarına dayanarak en uygun model seçimi takip edildi. Uygun model seçiminin ardından seçilen modelin geliştirilmesi ve verilerden daha uygun ve anlamlı sonuçlar çıkartaracak şekilde eğitilmesi için iyileştirme yöntemleri gerçekleştirildi. Böylece en uygun sonuçları sağlayan model kurgusu oluşturuldu. Hata oranını minimize etmek için geliştirilmiş algoritmalar, eXtreme Gradient Boosting (XGBOOST) ve Light Gradient Boosting Machines (LGBM) hiperparametrelerle test edilmiş ve rafine edilmiştir. Bu süreçte, kullanılan verilerin iyileştirilmesi, yeni özelliklerin oluşturulması ve yeni veri kaynaklarının eklenmesi, modelin performansını artırmaya katkıda bulunmuştur. Benzer süreçler, rakip analizi simülasyonu için seçilen Catboost algoritması olan ikinci modelin rafine edilmesinde de uygulanmıştır. Yapılan çalışmaların ardından, toplanan verilerin detaylı bir analizini içeren bir arayüz tasarlanmıştır. Arayüzde, her bir ayrıntı için, oyuncu, yapım şirketi, yönetmen, senarist veya kanal bazında, günlük derecelendirme raporları ve sosyal medya verileri, aylık veya yıllık görünümler de dahil olmak üzere çeşitli istenen zaman aralıkları için kapsamlı bir şekilde sunulmuştur. Denenen modeller aynı arayüze entegre edildi ve kullanıcıdan girdi almak ve modelin sonuçlarını buna göre yansıtmak için ikinci bir sayfa tasarlandı. Model çıktısının yanı sıra, arayüz, tahmin edilen değerin belirli parametreler veya kullanıcı girdileri tarafından ne kadar ve hangi ölçüde etkilendiğini açıklayan grafik temsilleri içermektedir. Bu grafikler, tahmin edilen sonucu etkileyen faktörlerin açıklayıcı bir görselleştirmesini sağlamaktadır. Oluşturulan arayüz sayesinde son kullanıcının arayüz üzerinden farklı kombinasyonları input olarak seçip farklı tahmin değerleri elde etmesi ve elde ettiği tahmin değerlerinin daha kolay yorumlanabilir ve açıklanabilir şekilde karşılaştırma ve analiz yapma imkanına sahip olacaktır.

Özet (Çeviri)

The motivation behind this study is to create a decision support system based on machine learning, resulting from the rapid digitization of the media industry, which has led to numerous content options for publication. The aim is to forecast the rating values that publication content will receive under different components and conditions before they are even published. Strategic project planning during specific publication seasons requires predicting the audience's value through various options. Presenting the expected outcomes based on rating metrics facilitates comprehensive evaluations addressing budgetary concerns and strategic considerations. Consequently, evaluating the predicted success of independently planned scenarios using rating metrics provides a concrete framework for various action plans. This study aims to assist publishers and producers in predicting the success probability of their content using machine learning techniques. Specifically, predicting the expected rating of a particular content publication involves understanding how this prediction is influenced by various conditions or circumstances. Ensuring consistency and comparability of relationships between different units supports the creation of budget action plans by internally comparing different options while scenarios are still on the table. This study aims to provide publishers and producers with accurate tools to forecast the success of their content. Leveraging machine learning techniques, it seeks to reliably predict the expected ratings of broadcast content. This predictive capability is crucial for stakeholders, enabling them to understand viewer preferences and make informed decisions about content creation, scheduling, and resource allocation. Ultimately, the goal is to empower industry professionals to optimize strategies, improve content quality, and stay competitive in a dynamic media environment The methods employed in this study initially involve examining relevant ratings, alongside analyzing series names from mainstream rating reports in the broadcast industry over the past seven years. Additionally, open-source data and social media data are utilized to enrich the dataset, which is then stored in a relational database for ongoing analysis. In the study, the models to be used were selected based on progressive-order logic and the metric values obtained from the model results. Subsequently, steps were taken to enhance and develop the selected ensemble boosting models. Finally, the developed model is integrated into a user-friendly interface, allowing for the interactive exploration of predicted outcomes based on specific parameters or user inputs. Using interpretable machine learning techniques, reports visualizing the predicted values obtained by the end user have been created, making the model outputs easier to interpret and understand.

Benzer Tezler

  1. Pre-release forecasting of imdb movie ratings using multi-view data

    Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi

    BEYZA ÇİZMECİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  2. Saf ses odyogram bulgularının makine öğrenmesi metotları ile değerlendirilerek muhtemel ön tanı ve öneri tahmininde bulunulması

    Predicting possible preliminary diagnosis and recommendations by evaluating pure tone audiogram findings with machine learning methods

    AÇELYA AYNACI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medeniyet Üniversitesi

    Biyolojik Veri Bilimi Ana Bilim Dalı

    PROF. DR. HANDAN ANKARALI

  3. An intelligent overtaking assistant for autonomous racing cars

    Otonom yarış araçları için bir akıllı sollama asistanı

    ERSİN ARMAĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR

  4. Prioritizing the strategic objectives by integrating the AHP decision model with the strategy map – an applied study

    AHP karar modelinin strateji haritası ile entegre edilmesi ile stratejik hedeflerin önceliklendirilmesi – uygulamalı çalışma

    SÜMEYYE AKKOÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. YUSUF İLKER TOPCU

  5. Gemiadamlarının emniyetli çalışma davranışlarının makine öğrenmesi ile tahminlenmesi

    Prediction of seafarers' safe work behavior using machine learning algorithms

    GİZEM ELİDOLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YASİN ARSLANOĞLU