Geri Dön

Imbalanced learning techniques: Experiments on NCAA college basketball league player statistics dataset

Dengesiz veride öğrenme: NCAA kolej basketbol ligi oyuncu istatistikleri veri seti üzerinde uygulamalar

  1. Tez No: 764548
  2. Yazar: EMİR GÜLER
  3. Danışmanlar: PROF. DR. BARIŞ SÜRÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 138

Özet

Bu çalışma,“Dengesiz sınıflandırma için en güncel yöntemler nelerdir ve bu yöntemlerin hangi kombinasyonları aşırı dengesiz gerçek dünya verilerinde en iyi sonuçları verir?”sorusuna cevap bulmak amacıyla yapılmıştır. Amacı gerçekleştirmek için içsel (algoritma tabanlı) ve dışsal (örnekleme tabanlı) dengesiz öğrenme teknikleri ayrı ayrı ve birlikte uygulanmıştır. Dengesiz sınıflandırma görevi için kullanılan veri seti, National Collegiate Athletic Association (NCAA) Erkekler Basketbol Ligi Oyuncu İstatistikleri Verileridir. Oyuncuların draft durumu (oyuncunun herhangi bir NBA takımı tarafından draft edilip edilmediği) ikili sınıflandırma için hedef değişken olarak kullanılmıştır. Azınlık sınıf : Çoğunluk sınıf oranı 3.39 : 96.61'dir. Model performansı değerlendirme ölçütü olarak F1 skoru kullanılmıştır. Deneylerde, örnekleme tekniklerinin varsayılan hiperparametrelerinin aşırı dengesizlik durumunda iyi çalışmadığı bulunmuştur. Optimum azınlık/çoğunluk oranı hiperparametreleri 0.07 ile 0.11 arasında değişmiştir, bu da azınlık ve çoğunluk sınıfı frekanslarının eşitlendiği ve oran hiperparametresini 1'e eşit yapan genel tavsiyeden ve uygulamadan farklı olduğu saptanmıştır. Öte yandan, Maliyet duyarlı (cost-sensitive) yöntemler örnekleme yöntemleriyle birleştirilmiş ve maliyete duyarlı öğrenme modelinin optimal olarak çalışan sınıf ağırlığı hiperparametreleri,“sınıf oranı 1:9 ise, maliyete duyarlı ağırlık hiperparametresi orijinal sınıf oranının tersi olmalıdır.”genel tavsiyesinden farklı olarak {class0: 1, class1: 1}, {class0: 2, class1: 1} veya {class0: 3, class1: 2} olarak bulunmuştur. Son olarak, F1 skorunu en üst düzeye çıkarmak için olasılık eşiğini değiştirme yöntemi uygulanmıştır. Bu şekilde, çalışmada dengesiz öğrenmedeki 3 farklı yöntemi birleştirilmiş ve güncel yöntemlerin tek başına kullanımına kıyasla daha iyi sonuçlar elde edilmiştir. Bunlara ek olarak, gerçek dünya veri seti ile elde edilen sonuçları güçlendirmek ve genellemek adına Monte Carlo simülasyonu uygulanmıştır.

Özet (Çeviri)

This study was conducted with the purpose of finding an answer to the question:“What are the state of art methods for imbalanced classification and which combinations of these methods yields best results in extremely imbalanced real-world data?”In order to accomplish the purpose, internal (algorithm-based) and external (sampling-based) imbalanced learning techniques was applied individually and in combination. The dataset used for the imbalanced classification task is National Collegiate Athletic Association (NCAA) Men's Basketball League Player Statistics Data. The players draft status (whether the player drafted by any NBA Teams or not) was used as the target variable for binary classification. Minority : Majority ratio of the target variable is 3.39 : 96.61. F1 score was used as the main evaluation metric. It was found in the experiments that default parameters of sampling techniques do not work well with extreme imbalance. Optimum minority over majority ratio hyperparameters ranged between 0.07 to 0.11 which differs from the general advice and application where minority and majority class frequencies are matched which makes the ratio hyperparameter equal to 1. On the other hand, Cost-sensitive methods were combined with sampling methods and class weight hyperparameters of cost-sensitive learning model which works optimally found as {class0: 1, class1: 1}, {class0: 2, class1: 1} or {class0: 3, class1: 2} contrary to the general teaching of“if class ratio is 1:9, the cost-sensitive weight hyperparameter should be the inverse of the original ratio”. Lastly, probability threshold moving was applied to maximize F1 score. That way, 3 different methods in Imbalanced Learning were consolidated and better results were acquired compared to the single use of the state of art methods. Additionally, Monte Carlo simulation was applied to fortify and generalize the results obtained by real-world dataset.

Benzer Tezler

  1. Dengesiz veri kümelerinde sınıflandırma problemleri için bulanık tip-2 tabanlı yeni bir algoritma

    A new fuzzy type-2 based algorithm for classification problems in imbalanced datasets

    MELİKE AYGÜN ÇAKIROĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiErciyes Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. EMEL KIZILKAYA AYDOĞAN

  2. Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı

    Use of optimization and pre-trained models in Turkish emotion analysis

    ALAETTİN UÇAN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EBRU SEZER

  3. Derin öğrenme teknikleri kullanılarak kemik kırığı tespiti ve sınıflandırması

    Bone fracture detection and classification using deep learning techniques

    KORAY AÇICI

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SÜMER

  4. Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders

    Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi

    AKRAM M.M. RADWAN

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  5. Uzaktan algılama verileri kullanarak derin öğrenmeye dayalı arazi kullanımı ve arazi örtüsü haritalama modeli geliştirme

    Developing a deep learning-based land use and land cover mapping model using remote sensing data

    ŞAZİYE ÖZGE ATİK

    Doktora

    Türkçe

    Türkçe

    2021

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. CENGİZHAN İPBÜKER