Geri Dön

Big data and machine learning for behavioral analytics and inference: Cases in sports and education

Davranış analitiği ve nedensel çıkarımlarda büyük veri ve makineöğrenimi: Spor ve eğitimden vakalar

  1. Tez No: 771041
  2. Yazar: EMRAH YILMAZ
  3. Danışmanlar: DOÇ. DR. ÖZDEN GÜR ALİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Ekonometri, İşletme, Computer Engineering and Computer Science and Control, Econometrics, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: İşletme Enstitüsü
  11. Ana Bilim Dalı: İşletme Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 158

Özet

Bu tez, davranış analitiği ve nedensel çıkarımda büyük veri ve makine öğrenimi yöntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel ekonometrik yöntemlerle çalışan araştırmacıların büyük veri ve nedensel Makine Öğrenmesi yöntemlerinden nasıl yararlanabileceğini göstermektir. Eğer bir konuda kapsamlı bir literatür yoksa, doğru regresyon spesifikasyonunu bulmak, özellikle yüksek boyutlu veri seti ile çalışırken zorlu bir iştir. Bu çalışmada nedensel Makine Öğrenimi tekniklerini açıklanabilir Yapay Zeka yöntemleriyle birleştirdim ve heterojen tretman etkilerinin doğru regresyon spesifikasyonu oluşturularak nasıl ölçüleceğine dair kılavuzlar (yani, bir regresyonda hangi ana değişkenler ve etkileşim değişkenleri kullanılacağı, hangi kontrol değişkenleri modele dahil edileceği) oluşturdum. Bu yönergeleri ampirik olarak test etmek için, futbolda maç içi geri bildirimler, maça özgü koşullar, takım özellikleri ve en önemlisi yönetici özellikleri hakkında ayrıntılı değişkenler içeren büyük bir veri seti oluşturdum. Ortaya koyduğum ampirik kanıtlar, futbol yöneticilerinin risk alma davranışlarının maç sırasında alınan geri bildirimlerden ve maç öncesinde gözlemlenen bilgilerden ne zaman ve nasıl etkilendiğini göstererek spor analitiği literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine Öğrenimi tekniğinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini bulmaya odaklanan FLAME ve doğrudan heterojen tretman etkilerini bulmaya çalışan Nedensel Orman) performanslarını değerlendirerek nedensel Makine Öğrenimi literatürüne katkıda bulunmaktadır. Spor analitiğine ek olarak, eğitim verileriyle de çalıştım ve bilişsel olmayan bir beceri olan azmin öğrenciler için akademik başarıyı nasıl öngördüğünü gösterdim. Davranışsal bir azim ölçüsü oluşturmak için dijital bir öğrenme platformundan benzersiz bir veri kümesi kullandım ve davranışsal olarak ölçülen azmin, araştırmacılar tarafından geleneksel anketlerle ölçülen azim ölçüsüne kıyasla öğrenci performansının daha iyi bir prediktörü olduğunu gösterdim. Ayrıca, büyük verinin gücü sayesinde, makine öğrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluşturmadan bile akademik dayanıklılığı tahmin etmede iyi performans gösterdiğini buldum. Spor ve eğitimdeki vakalar üzerinde çalışarak elde ettiğim ampirik bulguların, nedensel çıkarım yapmak için geleneksel ve teoriye dayalı modellerle çalışan araştırmacıların Makine Öğrenimi ve büyük veriden sağlayabileceği faydaları açıkca ortaya koyduğuna inanıyorum.

Özet (Çeviri)

This thesis focuses on the use of big data and machine learning methods in behavioral analytics and causal inference. The main motivation of the thesis is to illustrate how the researchers working with traditional econometric methods can benefit from big data and causal ML methods. In the absence of well-established literature, finding the right regression specification is a challenging task, especially when working with high dimensional data set. In this study, I have combined causal ML techniques with explainable AI methods and provided guidelines on how to measure heterogeneous treatment effects with the right regression specification (i.e. which main effects and interactions to be used, what control variables to be included). To empirically test these guidelines, I have curated a large data set in football including detailed variables about interim feedback, match-specific conditions, team features, and most importantly manager characteristics. Empirical evidence contributes to the sports analytics literature suggesting when and how risk-taking behavior of football managers pays off in light of interim and ex-ante information revealed to the manager (i.e. the decision maker). Moreover, this thesis contributes to the causal ML literature by evaluating the performances of two well-known causal ML techniques (a recently popular matching algorithm focusing on finding average treatment effects (FLAME) and Causal Forest that directly aims to estimate heterogeneous treatment effects) are evaluated by using synthetic data generated with known heterogeneous treatment effects. In addition to sports analytics, I have also worked with education data and demonstrated how grit, a non-cognitive skill, predicts academic achievement for students. I used a unique dataset from a digital learning platform to construct a behavioral measure of grit and showed that behavioral grit is a better predictor of student performance compared to survey grit that has been traditionally used by the researchers. I have also found that machine learning algorithms perform well in predicting academic resilience even without constructing any structural model or regression specification, thanks to the power of big data. I believe that my findings from cases in sports and education put forward the benefits of using Machine Learning and big data for researchers working with traditional and theory-based models for causal inference.

Benzer Tezler

  1. Ağ trafiğinde etkili olan özniteliklerin tespiti ve yapay sinir ağları ile trafiklerin izin tahmini

    Detection of features that are effective in network traffic and permission estimation of traffic with artifical neural network

    MUHAMMED ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ESKİ

  2. Metabolism-oriented multiomics data integration

    Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu

    AYCAN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. ALİ ÇAKMAK

  3. Feasibility analysis based on advanced deep learning techniques in integrating renewable energy resources into microgrids

    Yenilenebilir enerji kaynaklarının mikroşebekelere entegre edilmesinde gelişmiş derin öğrenme tekniklerine dayalı uygulanılabilirlik analizi

    FATHI FARAH FADOUL FATHI FARAH FADOUL

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. RAMAZAN ÇAĞLAR

  4. Yapay zekâ ve demokrasi

    Artificial intelligence and democracy

    AYŞE NUR YAZICILAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ŞULE ÖZSOY BOYUNSUZ

  5. An investigation of the impact of different data cleaning techniques on metric result quality in machine learning

    Makine öğrenmesinde, farklı veri temizleme tekniklerlerinin sonuç ölçevleri üzerindeki etkisinin incelenmesi

    ISRAA MUSTAFA ABBAS

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SACİP TOKER