Geri Dön

Performance comparasion of data level imbalanced data handling techniques on a binary classification problem

Veri seviyesindeki dengesiz veri seti kullanım tekniklerinin ikili sınıflandırma problemleri üzerinde performanslarının karşılaştırılması

  1. Tez No: 905863
  2. Yazar: DERYA NUR COŞAR
  3. Danışmanlar: PROF. DR. NURİ ÇELİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Matematik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

Makine öğrenimi çalışmalarında, dengesiz veri yaygın olarak karşılaşılan bir sorundur. Özellikle sınıflandırma problemlerinde, dengesiz veriler modelin genelleme gücünü olumsuz etkiler. Bu tür veriler genellikle bankacılık ve sağlık gibi kritik alanlardan geldiği için, dengesiz veri içeren problemler üzerinde ekstra özenle çalışılmalıdır. Araştırma, pozitif ve negatif sınıflar arasında önemli bir dengesizlik bulunan belirli bir ikili sınıflandırma problemi üzerine odaklanmaktadır. Dengesiz verilere karşı dayanıklılığı nedeniyle temel model olarak rastgele orman algoritması seçilmiştir. Dengesizliği gidermek ve modelin azınlık sınıfını tanıma yeteneğini artırmak amacıyla beş veri düzeyinde yeniden örnekleme tekniği kullanılmıştır: Rastgele Aşırı Örnekleme, Rastgele Eksik Örnekleme, SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği), Tomek Bağlantıları Eksik Örnekleme ve NearMiss Algoritması. Tezde, temel modelin orijinal veri setiyle ve yeniden örneklenen her veri setiyle eğitilen modellerin performansı değerlendirilmiştir. Değerlendirme ölçütleri olarak hassasiyet, duyarlılık ve F1 skoru kullanılmıştır; bu ölçütler, özellikle dengesiz ayarlarda model performansının kapsamlı bir değerlendirmesini sağlar. Her yeniden örnekleme yöntemi bu üç ölçütle değerlendirilmiş ve karşılaştırma“Sonuçlar”bölümünde verilmiştir. Bu çalışmaya konu olan veri seti, bir Portekiz bankasının tele-pazarlama kampanyasından elde edilmiştir. Hedef değişken, ilgili müşterinin vadeli mevduata abone olup olmadığını göstermektedir. Bu tez, dengesiz verilerle ikili sınıflandırma için veri yeniden örnekleme tekniklerinin uygulanmasına ilişkin değerli bilgiler sunmaktadır. Rastgele orman modeliyle tekniklerin karşılaştırmalı analizi, benzer zorluklarla karşılaşan araştırmacılar ve makine öğrenimi geliştiricileri için pratik rehberlik sağlar. Her yaklaşımın güçlü ve zayıf yönlerini anlayarak, dengesiz veriye sahip gerçek dünya senaryolarında ikili sınıflandırma modellerinin performansını iyileştirmek için daha bilinçli kararlar vermek mümkündür.

Özet (Çeviri)

In machine learning studies imbalanced data is a commonly encountered problem. Especially in classification problems, imbalanced data negatively affect the generalization power of the model. Problems with this type of data should be studied with extra caution since imbalanced data mostly comes from a critical domain such as banking and healthcare. The research focuses on a specific binary classification problem with a significant imbalance between the positive and negative classes. A random forest algorithm is chosen as the base model for its robustness to imbalanced data. To address the imbalance and enhance the model's ability to identify the minority class, five data-level resampling techniques are employed: Random Oversampling, Random Undersampling, SMOTE (Synthetic Minority Oversampling Technique), Tomek Links Undersampling and NearMiss Algorithm. The thesis evaluates the performance of the base model with original dataset and the models trained with each resampled dataset. The evaluation metrics used are precision, recall, and F1-score, which provide a comprehensive assessment of model performance, particularly in imbalanced settings. Each resampling method were evaluated with these three metrics and the comparison is given in the“Results”section. The dataset subject to this study is generated from a tele-marketing campaign of a Portuguese bank. Target variable holds the information of whether the related customer subscribed a term-deposit. This thesis contributes valuable insights into the application of data resampling techniques for binary classification with imbalanced data. The comparative analysis of the techniques with a random forest model provides practical guidance for researchers and machine learning developers facing similar challenges. By understanding the strengths and weaknesses of each approach, more informed decisions is possible to make to improve the performance of their binary classification models in real-world scenarios with imbalanced data.

Benzer Tezler

  1. Train set complexity tunning for imbalance learning

    Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması

    MEHMET ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. MEHMET ALİ ERGÜN

  2. Anomaly detection in ınternet of medical things using deep learning

    Anomaly detect ionin internet of medical things using deep learning

    AYŞE BETÜL BÜKEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  3. Homojen ve heterojen evrimsel sosyal ağlarda bağlantı tahmini

    Link prediction in evolving homogeneous and heterogeneous networks

    ALPER ÖZCAN

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  4. Improved bone marrow cell classification using enhanced capsnet and enhanced U-net: Addressing data imbalance and large-scale data

    Geliştirilmiş kapsül ağı ve U-net kullanarak kemik iliği hücrelerinin iyileştirilmiş sınıflandırılması: Veri dengesizliği ve büyük ölçekli veri sorunlarına çözüm

    AMINA FARIS ABDULLAH AL-RAHHAWI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NESRİN AYDIN ATASOY

  5. Voleybolcu olan ve olmayanlarda, omurga yapı ve mobilitesi, kor enduransı, skapular diskinezi ve üst ekstremite fonksiyonunun karşılaştırılması

    Comparison of spine structure and mobility, cor endurance, scapular dyskinesia and upper limb function in volleyball players and non-volleyball players

    ELİF YEŞİLAY BÜYÜKDERE

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Fizyoterapi ve Rehabilitasyonİzmir Katip Çelebi Üniversitesi

    Fizyoterapi ve Rehabilitasyon Ana Bilim Dalı

    DOÇ. DR. SEVTAP GÜNAY UÇURUM