Imbalanced learning techniques: Experiments on NCAA college basketball league player statistics dataset
Dengesiz veride öğrenme: NCAA kolej basketbol ligi oyuncu istatistikleri veri seti üzerinde uygulamalar
- Tez No: 764548
- Danışmanlar: PROF. DR. BARIŞ SÜRÜCÜ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 138
Özet
Bu çalışma,“Dengesiz sınıflandırma için en güncel yöntemler nelerdir ve bu yöntemlerin hangi kombinasyonları aşırı dengesiz gerçek dünya verilerinde en iyi sonuçları verir?”sorusuna cevap bulmak amacıyla yapılmıştır. Amacı gerçekleştirmek için içsel (algoritma tabanlı) ve dışsal (örnekleme tabanlı) dengesiz öğrenme teknikleri ayrı ayrı ve birlikte uygulanmıştır. Dengesiz sınıflandırma görevi için kullanılan veri seti, National Collegiate Athletic Association (NCAA) Erkekler Basketbol Ligi Oyuncu İstatistikleri Verileridir. Oyuncuların draft durumu (oyuncunun herhangi bir NBA takımı tarafından draft edilip edilmediği) ikili sınıflandırma için hedef değişken olarak kullanılmıştır. Azınlık sınıf : Çoğunluk sınıf oranı 3.39 : 96.61'dir. Model performansı değerlendirme ölçütü olarak F1 skoru kullanılmıştır. Deneylerde, örnekleme tekniklerinin varsayılan hiperparametrelerinin aşırı dengesizlik durumunda iyi çalışmadığı bulunmuştur. Optimum azınlık/çoğunluk oranı hiperparametreleri 0.07 ile 0.11 arasında değişmiştir, bu da azınlık ve çoğunluk sınıfı frekanslarının eşitlendiği ve oran hiperparametresini 1'e eşit yapan genel tavsiyeden ve uygulamadan farklı olduğu saptanmıştır. Öte yandan, Maliyet duyarlı (cost-sensitive) yöntemler örnekleme yöntemleriyle birleştirilmiş ve maliyete duyarlı öğrenme modelinin optimal olarak çalışan sınıf ağırlığı hiperparametreleri,“sınıf oranı 1:9 ise, maliyete duyarlı ağırlık hiperparametresi orijinal sınıf oranının tersi olmalıdır.”genel tavsiyesinden farklı olarak {class0: 1, class1: 1}, {class0: 2, class1: 1} veya {class0: 3, class1: 2} olarak bulunmuştur. Son olarak, F1 skorunu en üst düzeye çıkarmak için olasılık eşiğini değiştirme yöntemi uygulanmıştır. Bu şekilde, çalışmada dengesiz öğrenmedeki 3 farklı yöntemi birleştirilmiş ve güncel yöntemlerin tek başına kullanımına kıyasla daha iyi sonuçlar elde edilmiştir. Bunlara ek olarak, gerçek dünya veri seti ile elde edilen sonuçları güçlendirmek ve genellemek adına Monte Carlo simülasyonu uygulanmıştır.
Özet (Çeviri)
This study was conducted with the purpose of finding an answer to the question:“What are the state of art methods for imbalanced classification and which combinations of these methods yields best results in extremely imbalanced real-world data?”In order to accomplish the purpose, internal (algorithm-based) and external (sampling-based) imbalanced learning techniques was applied individually and in combination. The dataset used for the imbalanced classification task is National Collegiate Athletic Association (NCAA) Men's Basketball League Player Statistics Data. The players draft status (whether the player drafted by any NBA Teams or not) was used as the target variable for binary classification. Minority : Majority ratio of the target variable is 3.39 : 96.61. F1 score was used as the main evaluation metric. It was found in the experiments that default parameters of sampling techniques do not work well with extreme imbalance. Optimum minority over majority ratio hyperparameters ranged between 0.07 to 0.11 which differs from the general advice and application where minority and majority class frequencies are matched which makes the ratio hyperparameter equal to 1. On the other hand, Cost-sensitive methods were combined with sampling methods and class weight hyperparameters of cost-sensitive learning model which works optimally found as {class0: 1, class1: 1}, {class0: 2, class1: 1} or {class0: 3, class1: 2} contrary to the general teaching of“if class ratio is 1:9, the cost-sensitive weight hyperparameter should be the inverse of the original ratio”. Lastly, probability threshold moving was applied to maximize F1 score. That way, 3 different methods in Imbalanced Learning were consolidated and better results were acquired compared to the single use of the state of art methods. Additionally, Monte Carlo simulation was applied to fortify and generalize the results obtained by real-world dataset.
Benzer Tezler
- Dengesiz veri kümelerinde sınıflandırma problemleri için bulanık tip-2 tabanlı yeni bir algoritma
A new fuzzy type-2 based algorithm for classification problems in imbalanced datasets
MELİKE AYGÜN ÇAKIROĞLU
Doktora
Türkçe
2024
Endüstri ve Endüstri MühendisliğiErciyes ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. EMEL KIZILKAYA AYDOĞAN
- Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı
Use of optimization and pre-trained models in Turkish emotion analysis
ALAETTİN UÇAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EBRU SEZER
- Derin öğrenme teknikleri kullanılarak kemik kırığı tespiti ve sınıflandırması
Bone fracture detection and classification using deep learning techniques
KORAY AÇICI
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SÜMER
- Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Uzaktan algılama verileri kullanarak derin öğrenmeye dayalı arazi kullanımı ve arazi örtüsü haritalama modeli geliştirme
Developing a deep learning-based land use and land cover mapping model using remote sensing data
ŞAZİYE ÖZGE ATİK
Doktora
Türkçe
2021
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. CENGİZHAN İPBÜKER