Geri Dön

Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji

A novel hybrid methodology based on clustering for classification with imbalance datasets

  1. Tez No: 781209
  2. Yazar: ABDULLAH MARAŞ
  3. Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 102

Özet

Makine öğrenmesi modellerinde istenilen performans değerlerine ulaşılamamasının bir nedeni de dengesiz veri kümelerinin kullanılmasıdır. Dengesiz veri kümeleri hedef değişkenlerin dağılımlarının eşit olmadığı veri kümelerine verilen addır. Makine öğrenmesi model kurulumu sırasında kullanılan algoritmalar, veri kümesindeki hedef değişkenlerin dağılımının eşit olduğu varsayımı altında daha iyi performans göstermektedirler. Bu nedenle makine öğrenmesi modellerini oluştururken probleme yönelik sunulan aşağı örnekleme, yukarı örnekleme veya hibrit yaklaşım çözümlerinden biri uygulanmaktadır. Bu tez kapsamında öncelikle dengesiz veri kümeleri problemi ve çözümleri ile ilgili bir bibliyometrik analiz gerçekleştirilmiş olup sonrasında problem çözümü için FuzzyCSampling olarak adlandırılan hibrit bir yaklaşım geliştirilmiştir. FuzzyCSampling yaklaşımı kümeleme ve veri örnekleme yöntemlerinin birlikte kullanarak hedef değişkenlerin eşitsiz dağılımlarının oranının azalmasını sağlamıştır. Önerilen yaklaşım farklı dengesizlik oranına ve büyüklüklere sahip olan Pima Indians Diyabet, KDD Cup 1999 ve Credit Card Fraud Detection veri kümeleriyle model oluşturulması için kullanılıp model performanslarındaki değişim incelenmiştir. Model değerlendirme ölçütleri olarak doğruluk, duyarlılık, kesinlik, F-ölçütü ve AUC kullanılmıştır. Model performans değerlendirmesinde veri kümesi %70 eğitim %30 test ayrılarak kullanılmıştır. Ayrıca modeller rastgele orman algoritması, k-en yakın komşu ve destek vektör makineleri kullanılarak Python dilinde gerçekleştirilmiştir. FuzzyCSampling yönteminin başarısının karşılaştırılması amacıyla yaygın kullanılan çözümler olan rastgele aşağı örnekleme, SMOTE, Borderline-SMOTE ve herhangi bir çözüm kullanılmayan durum için modeller kurulmuştur. Pima Indians Diyabet veri kümesi ile oluşturulan modeller kıyaslandığında, k-en yakın komşu algoritması ve FuzzyCSampling yaklaşımı ile oluşturulan modelin performansının (doğruluk:0,885; AUC: 0,872 ve F-ölçütü:0,846) diğer modellerden daha iyi olduğu gözlemlenmiştir. KDD Cup 1999 veri kümesi ile oluşturulan modellerin arasında da rastgele orman algoritması ve FuzzyCSampling yaklaşımının uygulanması durumunda diğer modellerden daha iyi performans sonuçları (doğruluk:0,999; kesinlik: 0,993 ve F-ölçütü:0,978) elde edildiği gözlemlenmiştir. Credit Card Fraud Detection veri kümesiyle oluşturulan modeller karşılaştırıldığında FuzzyCSampling yaklaşımının rastgele orman algoritması birlikte uygulanmasının performansı (AUC:0,941; kesinlik: 0,970 ve F-ölçütü:0,932) iyileştirdiği gözlemlenmiştir. Bu tez kapsamında dengesiz veri kümeleri problemine çözüm olarak sunulan FuzzyCSampling yaklaşımının ikili sınıflandırma problemlerinde iyi bir alternatif çözüm olduğu görülmüştür.

Özet (Çeviri)

The usage of imbalanced datasets would be another reason that prevents machine learning models from producing the desired performance results. Datasets that have an uneven distribution of the target variables are known as imbalanced datasets. The performance of algorithms used during building a machine learning model is better when the distribution of the target variables in the dataset is equal. For this reason, when building machine learning models, solutions for imbalanced datasets such as undersampling, oversampling, or hybrid approaches are applied to the problem. Within the scope of this thesis, a bibliometric analysis of the imbalanced datasets problem and its solutions was performed first, followed by the proposal of a new hybrid approach based on clustering for the imbalanced dataset problem. The FuzzyCSampling approach has decreased the rate of uneven distribution of the target variables by combining data sampling and clustering techniques. The proposed approach is used to create models with Pima Indians Diabetes, KDD Cup 1999 and Credit Card Fraud Detection datasets which have different imbalanced ratios and sizes, and the change in model performances is examined. The results were analyzed using the evaluation metrics accuracy, recall, precision, F1-score, and AUC. The dataset was divided into 70% training and 30% testing for the model performance evaluation. Moreover, support vector machines, k-nearest neighbor, and the random forest technique were used to build the models in Python. Models were created for the widely used solutions random undersampling, SMOTE, Borderline-SMOTE, and the absence of any solution in order to compare the effectiveness of the FuzzyCSampling approach. In a comparison of the models developed using the Pima Indians Diabetes dataset, it was found that the model developed using the k-nearest neighbor technique and the FuzzyCSampling approach performed (accuracy:0,885; AUC: 0,872 and F1-score:0,846) better than the other models. Among the models created with the KDD Cup 1999 dataset, it was also observed that better performance results (accuracy:0,999; precision: 0,993 and F1-score:0,978) were obtained when the random forest algorithm and the FuzzyCSampling approach were applied. When the models built with the Credit Card Fraud Detection dataset were compared, it is observed that utilizing the FuzzyCSampling approach in conjunction with the random forest algorithm improves the performance (AUC:0,941; precision: 0,970 and F1-score:0,932). The FuzzyCSampling strategy, which is put forth in this thesis as a solution for the issue of imbalanced datasets, was found to be a good alternative solution for binary classification problems.

Benzer Tezler

  1. Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi

    An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis

    MUSTAFA YAVAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYSUN GÜRAN

  2. New proposed methods for synthetic minority over-sampling technique

    Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler

    HAKAN KORUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

  3. Improved helicopter classification via deep learning and overlapped range-doppler maps

    Derin öğrenme ve örtüşen menzil-doppler görüntüleri ile geliştirilmiş helikopter sınıflandırması

    DENİZ CAN ACER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  4. Visualization based analysis of gene networks using high dimensional model representation

    Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi

    PINAR GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  5. Dengesiz veri kümelerinde sınıflandırma problemleri için bulanık tip-2 tabanlı yeni bir algoritma

    A new fuzzy type-2 based algorithm for classification problems in imbalanced datasets

    MELİKE AYGÜN ÇAKIROĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiErciyes Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. EMEL KIZILKAYA AYDOĞAN