Geri Dön

Performance comparasion of data level imbalanced data handling techniques on a binary classification problem

Veri seviyesindeki dengesiz veri seti kullanım tekniklerinin ikili sınıflandırma problemleri üzerinde performanslarının karşılaştırılması

  1. Tez No: 905863
  2. Yazar: DERYA NUR COŞAR
  3. Danışmanlar: PROF. DR. NURİ ÇELİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Matematik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

Makine öğrenimi çalışmalarında, dengesiz veri yaygın olarak karşılaşılan bir sorundur. Özellikle sınıflandırma problemlerinde, dengesiz veriler modelin genelleme gücünü olumsuz etkiler. Bu tür veriler genellikle bankacılık ve sağlık gibi kritik alanlardan geldiği için, dengesiz veri içeren problemler üzerinde ekstra özenle çalışılmalıdır. Araştırma, pozitif ve negatif sınıflar arasında önemli bir dengesizlik bulunan belirli bir ikili sınıflandırma problemi üzerine odaklanmaktadır. Dengesiz verilere karşı dayanıklılığı nedeniyle temel model olarak rastgele orman algoritması seçilmiştir. Dengesizliği gidermek ve modelin azınlık sınıfını tanıma yeteneğini artırmak amacıyla beş veri düzeyinde yeniden örnekleme tekniği kullanılmıştır: Rastgele Aşırı Örnekleme, Rastgele Eksik Örnekleme, SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği), Tomek Bağlantıları Eksik Örnekleme ve NearMiss Algoritması. Tezde, temel modelin orijinal veri setiyle ve yeniden örneklenen her veri setiyle eğitilen modellerin performansı değerlendirilmiştir. Değerlendirme ölçütleri olarak hassasiyet, duyarlılık ve F1 skoru kullanılmıştır; bu ölçütler, özellikle dengesiz ayarlarda model performansının kapsamlı bir değerlendirmesini sağlar. Her yeniden örnekleme yöntemi bu üç ölçütle değerlendirilmiş ve karşılaştırma“Sonuçlar”bölümünde verilmiştir. Bu çalışmaya konu olan veri seti, bir Portekiz bankasının tele-pazarlama kampanyasından elde edilmiştir. Hedef değişken, ilgili müşterinin vadeli mevduata abone olup olmadığını göstermektedir. Bu tez, dengesiz verilerle ikili sınıflandırma için veri yeniden örnekleme tekniklerinin uygulanmasına ilişkin değerli bilgiler sunmaktadır. Rastgele orman modeliyle tekniklerin karşılaştırmalı analizi, benzer zorluklarla karşılaşan araştırmacılar ve makine öğrenimi geliştiricileri için pratik rehberlik sağlar. Her yaklaşımın güçlü ve zayıf yönlerini anlayarak, dengesiz veriye sahip gerçek dünya senaryolarında ikili sınıflandırma modellerinin performansını iyileştirmek için daha bilinçli kararlar vermek mümkündür.

Özet (Çeviri)

In machine learning studies imbalanced data is a commonly encountered problem. Especially in classification problems, imbalanced data negatively affect the generalization power of the model. Problems with this type of data should be studied with extra caution since imbalanced data mostly comes from a critical domain such as banking and healthcare. The research focuses on a specific binary classification problem with a significant imbalance between the positive and negative classes. A random forest algorithm is chosen as the base model for its robustness to imbalanced data. To address the imbalance and enhance the model's ability to identify the minority class, five data-level resampling techniques are employed: Random Oversampling, Random Undersampling, SMOTE (Synthetic Minority Oversampling Technique), Tomek Links Undersampling and NearMiss Algorithm. The thesis evaluates the performance of the base model with original dataset and the models trained with each resampled dataset. The evaluation metrics used are precision, recall, and F1-score, which provide a comprehensive assessment of model performance, particularly in imbalanced settings. Each resampling method were evaluated with these three metrics and the comparison is given in the“Results”section. The dataset subject to this study is generated from a tele-marketing campaign of a Portuguese bank. Target variable holds the information of whether the related customer subscribed a term-deposit. This thesis contributes valuable insights into the application of data resampling techniques for binary classification with imbalanced data. The comparative analysis of the techniques with a random forest model provides practical guidance for researchers and machine learning developers facing similar challenges. By understanding the strengths and weaknesses of each approach, more informed decisions is possible to make to improve the performance of their binary classification models in real-world scenarios with imbalanced data.

Benzer Tezler

  1. Train set complexity tunning for imbalance learning

    Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması

    MEHMET ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. MEHMET ALİ ERGÜN

  2. Homojen ve heterojen evrimsel sosyal ağlarda bağlantı tahmini

    Link prediction in evolving homogeneous and heterogeneous networks

    ALPER ÖZCAN

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  3. Voleybolcu olan ve olmayanlarda, omurga yapı ve mobilitesi, kor enduransı, skapular diskinezi ve üst ekstremite fonksiyonunun karşılaştırılması

    Comparison of spine structure and mobility, cor endurance, scapular dyskinesia and upper limb function in volleyball players and non-volleyball players

    ELİF YEŞİLAY BÜYÜKDERE

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Fizyoterapi ve Rehabilitasyonİzmir Katip Çelebi Üniversitesi

    Fizyoterapi ve Rehabilitasyon Ana Bilim Dalı

    DOÇ. DR. SEVTAP GÜNAY UÇURUM

  4. Türk bankacılık sektöründe kırılganlık'finansal krizlerin kamu ve özel sermayeli bankalara etkisinin oran analizi ile tespiti ve karşılaştırılması(1990-2015 dönemi)'

    Further in turkish banking sector'determination and comparison of financial crises by ratio analysis of public and private equity banking effect (1990-2015 period)'

    SÜLEYMAN BİLGİÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    BankacılıkUşak Üniversitesi

    İşletme Ana Bilim Dalı

    YRD. DOÇ. AYŞENUR TARAKCIOĞLU ALTINAY

  5. Değişken yük içeren dönel makinelerde dengesiz yükün dinamik sistem üzerindeki etkilerinin deneysel ve sayısal incelenmesi

    Experimental and numerical analysis of unbalanced load on dynamic system in rotary machines with variable load

    BATUHAN ERDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. VAHİT MERMERTAŞ