Performance comparasion of data level imbalanced data handling techniques on a binary classification problem
Veri seviyesindeki dengesiz veri seti kullanım tekniklerinin ikili sınıflandırma problemleri üzerinde performanslarının karşılaştırılması
- Tez No: 905863
- Danışmanlar: PROF. DR. NURİ ÇELİK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Gebze Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Matematik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Makine öğrenimi çalışmalarında, dengesiz veri yaygın olarak karşılaşılan bir sorundur. Özellikle sınıflandırma problemlerinde, dengesiz veriler modelin genelleme gücünü olumsuz etkiler. Bu tür veriler genellikle bankacılık ve sağlık gibi kritik alanlardan geldiği için, dengesiz veri içeren problemler üzerinde ekstra özenle çalışılmalıdır. Araştırma, pozitif ve negatif sınıflar arasında önemli bir dengesizlik bulunan belirli bir ikili sınıflandırma problemi üzerine odaklanmaktadır. Dengesiz verilere karşı dayanıklılığı nedeniyle temel model olarak rastgele orman algoritması seçilmiştir. Dengesizliği gidermek ve modelin azınlık sınıfını tanıma yeteneğini artırmak amacıyla beş veri düzeyinde yeniden örnekleme tekniği kullanılmıştır: Rastgele Aşırı Örnekleme, Rastgele Eksik Örnekleme, SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği), Tomek Bağlantıları Eksik Örnekleme ve NearMiss Algoritması. Tezde, temel modelin orijinal veri setiyle ve yeniden örneklenen her veri setiyle eğitilen modellerin performansı değerlendirilmiştir. Değerlendirme ölçütleri olarak hassasiyet, duyarlılık ve F1 skoru kullanılmıştır; bu ölçütler, özellikle dengesiz ayarlarda model performansının kapsamlı bir değerlendirmesini sağlar. Her yeniden örnekleme yöntemi bu üç ölçütle değerlendirilmiş ve karşılaştırma“Sonuçlar”bölümünde verilmiştir. Bu çalışmaya konu olan veri seti, bir Portekiz bankasının tele-pazarlama kampanyasından elde edilmiştir. Hedef değişken, ilgili müşterinin vadeli mevduata abone olup olmadığını göstermektedir. Bu tez, dengesiz verilerle ikili sınıflandırma için veri yeniden örnekleme tekniklerinin uygulanmasına ilişkin değerli bilgiler sunmaktadır. Rastgele orman modeliyle tekniklerin karşılaştırmalı analizi, benzer zorluklarla karşılaşan araştırmacılar ve makine öğrenimi geliştiricileri için pratik rehberlik sağlar. Her yaklaşımın güçlü ve zayıf yönlerini anlayarak, dengesiz veriye sahip gerçek dünya senaryolarında ikili sınıflandırma modellerinin performansını iyileştirmek için daha bilinçli kararlar vermek mümkündür.
Özet (Çeviri)
In machine learning studies imbalanced data is a commonly encountered problem. Especially in classification problems, imbalanced data negatively affect the generalization power of the model. Problems with this type of data should be studied with extra caution since imbalanced data mostly comes from a critical domain such as banking and healthcare. The research focuses on a specific binary classification problem with a significant imbalance between the positive and negative classes. A random forest algorithm is chosen as the base model for its robustness to imbalanced data. To address the imbalance and enhance the model's ability to identify the minority class, five data-level resampling techniques are employed: Random Oversampling, Random Undersampling, SMOTE (Synthetic Minority Oversampling Technique), Tomek Links Undersampling and NearMiss Algorithm. The thesis evaluates the performance of the base model with original dataset and the models trained with each resampled dataset. The evaluation metrics used are precision, recall, and F1-score, which provide a comprehensive assessment of model performance, particularly in imbalanced settings. Each resampling method were evaluated with these three metrics and the comparison is given in the“Results”section. The dataset subject to this study is generated from a tele-marketing campaign of a Portuguese bank. Target variable holds the information of whether the related customer subscribed a term-deposit. This thesis contributes valuable insights into the application of data resampling techniques for binary classification with imbalanced data. The comparative analysis of the techniques with a random forest model provides practical guidance for researchers and machine learning developers facing similar challenges. By understanding the strengths and weaknesses of each approach, more informed decisions is possible to make to improve the performance of their binary classification models in real-world scenarios with imbalanced data.
Benzer Tezler
- Train set complexity tunning for imbalance learning
Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması
MEHMET ULAŞ
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. MEHMET ALİ ERGÜN
- Homojen ve heterojen evrimsel sosyal ağlarda bağlantı tahmini
Link prediction in evolving homogeneous and heterogeneous networks
ALPER ÖZCAN
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Voleybolcu olan ve olmayanlarda, omurga yapı ve mobilitesi, kor enduransı, skapular diskinezi ve üst ekstremite fonksiyonunun karşılaştırılması
Comparison of spine structure and mobility, cor endurance, scapular dyskinesia and upper limb function in volleyball players and non-volleyball players
ELİF YEŞİLAY BÜYÜKDERE
Yüksek Lisans
Türkçe
2023
Fizyoterapi ve Rehabilitasyonİzmir Katip Çelebi ÜniversitesiFizyoterapi ve Rehabilitasyon Ana Bilim Dalı
DOÇ. DR. SEVTAP GÜNAY UÇURUM
- Türk bankacılık sektöründe kırılganlık'finansal krizlerin kamu ve özel sermayeli bankalara etkisinin oran analizi ile tespiti ve karşılaştırılması(1990-2015 dönemi)'
Further in turkish banking sector'determination and comparison of financial crises by ratio analysis of public and private equity banking effect (1990-2015 period)'
SÜLEYMAN BİLGİÇ
Yüksek Lisans
Türkçe
2017
BankacılıkUşak Üniversitesiİşletme Ana Bilim Dalı
YRD. DOÇ. AYŞENUR TARAKCIOĞLU ALTINAY
- Değişken yük içeren dönel makinelerde dengesiz yükün dinamik sistem üzerindeki etkilerinin deneysel ve sayısal incelenmesi
Experimental and numerical analysis of unbalanced load on dynamic system in rotary machines with variable load
BATUHAN ERDOĞAN
Yüksek Lisans
Türkçe
2021
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. VAHİT MERMERTAŞ