Geri Dön

Sınıf dengesizliği sorununu çözmek için kullanılan algoritmaların farklı sınıflandırma yöntemlerinde performanslarının karşılaştırılması

Comparing the performance of the algorithms usedto solve class imbalance problem in different methods of classification

  1. Tez No: 513534
  2. Yazar: DUYGU AYDIN HAKLI
  3. Danışmanlar: PROF. DR. ERDEM KARABULUT
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Veri setlerinde sınıf dengesizliği problemi bir gruptaki gözlem sayısının diğer gruptaki gözlem sayısınından küçük olması olarak tanımlanmaktadır. Dengesiz veri setlerini makine öğrenme yöntemleri ile analiz etmek son yıllarda yaygın ve dikkate değer bir araştırma alanı konumuna gelmiştir. Ancak bu problemden dolayı model performanslarında bir azalma olmaktadır. Bunun yanı sıra, verinin dağılımı ve verinin yapısı sınıflama için model seçimi, en uygun (optimum) model parametrelerinin elde edilmesi, modelin geçerliğinin etkileyebilmektedir. SMOTE, SMOTEBoost, RUSBoost, MWMOTE, EasyEnsemble, SMOTEBagging ve UnderBagging gibi algoritmalar sınıf dengesizliği probleminin etkisini azaltmak için önerilmiştir. Tez çalışmasında gerçek veri setleri ile birlikte kapsamlı bir benzetim çalışması ile elde edilen veri setleri kullanılarak sınıflama yöntemlerinin performanslarını değerlendirildi. Farklı sınıflama yöntemleri, farklı sınıf dengesizlik algoritmaları, farklı örneklem genişlikleri, farklı korelasyon yapıları ve farklı dengesizlik oranlarını kapsayacak bir benzetim çalışması gerçekleştirildi. Her senaryo 1000 kez tekrarlandı ve 5-kat çapraz geçerlik kullanılarak model doğruluğu sağlandı. Benzetim çalışmasındaki kurulan modellerin performanslarının, örneklem genişliği ve bağımlı-bağımsız değişkenler arasındaki ilişki ile arttığı görüldü. Korelasyon sıfıra yaklaştığında ve dengesizlik çok olduğunda, RUSBoost algoritması diğer algoritmalara göre sonuçlar üzerinde daha etkili bulundu. Veri setleri dengeli hale geldikçe yedi (7) algoritma örneklem genişliğinden ve korelasyon yapısından bağımsız olarak benzer sonuçlar verdi. Genel olarak benzetim çalışması sonucunda, RUSBoost tüm örneklem genişliklerinde, EasyEnsemble ise küçük örneklem genişliklerinde daha iyi sonuç verdi.

Özet (Çeviri)

Class imbalance, for a given dataset, occurs when there are relatively small observations in one or more groups comparing to other groups. Analyzing imbalanced data sets via machine learning algorithms has become a common and remarkable research area in recent years. However, this problem leads to a decrease in the model performance. Besides that, selection of the model for classification, optimizing model parameters, validating the fitted model, underlying distribution and data structure may also affect model performance. Furthermore, several data balancing algorithms were proposed to overcome class imbalance problem such as SMOTE, SMOTEBoost, RUSBoost, MWMOTE, EasyEnsemble, SMOTEBagging and UnderBagging. In this study, we evaluated model performances using a comprehensive simulation study along with real data examples. We conducted a simulation study under different classification models, class imbalance algorithms, sample sizes, correlation structures and class imbalance ratios. Each scenario was repeated 1000 times and the fitted models were optimized using 5-folds cross-validation. Simulation study showed that the model performances increase with sample size and correlation among dependent and independent variables. When the correlation approaches zero and classes are highly imbalanced, RUSBoost outperforms other algorithms. As data become more balanced, the seven algorithms gave similar results independently from sample size and correlation structure. Overall simulation results, RUSBoost algorithm provided better result for all sample sizes and EasyEnsemble for small sample size the most of the simulation combinations.

Benzer Tezler

  1. Purchase prediction and item prediction with RNN using different user-item interactions

    Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi

    FULYA ÇELEBİ SARIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  2. Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: Ainus

    AiNet algorithm-based undersampling method for imbalanced classification problems: Ainus

    KÜBRANUR GÜMÜŞLÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE MERVE ACILAR

  3. Classification of agricultural land cover using satellite imagery with deep learning

    Derin öğrenme ile uydu görüntüleri kullanılarak tarımsal arazi örtüsünün sınıflandırılması

    ABDULWAHEED ADEBOLA YUSUF

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GALİP AYDIN

  4. Segmentation of multi class retinal lesions from fundus images

    Fundus görüntülerınden çok sınıflı retina lezyonlarının segmentasyonu

    ELİF KÜBRA ÇONTAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE AKAR

  5. Veri madenciliğindeki sınıf dengesizliği sorununun giderilmesi

    Alleviating the class imbalance problem in data mining

    AKKENZHE SARMANOVA

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SONGÜL ALBAYRAK