Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji

A novel hybrid methodology based on clustering for classification with imbalance datasets

PDF İndir

Tez No: 781209
Yazar: ABDULLAH MARAŞ
Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: İstanbul Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Enformatik Ana Bilim Dalı
Bilim Dalı: Enformatik Bilim Dalı
Sayfa Sayısı: 102

Özet

Makine öğrenmesi modellerinde istenilen performans değerlerine ulaşılamamasının bir nedeni de dengesiz veri kümelerinin kullanılmasıdır. Dengesiz veri kümeleri hedef değişkenlerin dağılımlarının eşit olmadığı veri kümelerine verilen addır. Makine öğrenmesi model kurulumu sırasında kullanılan algoritmalar, veri kümesindeki hedef değişkenlerin dağılımının eşit olduğu varsayımı altında daha iyi performans göstermektedirler. Bu nedenle makine öğrenmesi modellerini oluştururken probleme yönelik sunulan aşağı örnekleme, yukarı örnekleme veya hibrit yaklaşım çözümlerinden biri uygulanmaktadır. Bu tez kapsamında öncelikle dengesiz veri kümeleri problemi ve çözümleri ile ilgili bir bibliyometrik analiz gerçekleştirilmiş olup sonrasında problem çözümü için FuzzyCSampling olarak adlandırılan hibrit bir yaklaşım geliştirilmiştir. FuzzyCSampling yaklaşımı kümeleme ve veri örnekleme yöntemlerinin birlikte kullanarak hedef değişkenlerin eşitsiz dağılımlarının oranının azalmasını sağlamıştır. Önerilen yaklaşım farklı dengesizlik oranına ve büyüklüklere sahip olan Pima Indians Diyabet, KDD Cup 1999 ve Credit Card Fraud Detection veri kümeleriyle model oluşturulması için kullanılıp model performanslarındaki değişim incelenmiştir. Model değerlendirme ölçütleri olarak doğruluk, duyarlılık, kesinlik, F-ölçütü ve AUC kullanılmıştır. Model performans değerlendirmesinde veri kümesi %70 eğitim %30 test ayrılarak kullanılmıştır. Ayrıca modeller rastgele orman algoritması, k-en yakın komşu ve destek vektör makineleri kullanılarak Python dilinde gerçekleştirilmiştir. FuzzyCSampling yönteminin başarısının karşılaştırılması amacıyla yaygın kullanılan çözümler olan rastgele aşağı örnekleme, SMOTE, Borderline-SMOTE ve herhangi bir çözüm kullanılmayan durum için modeller kurulmuştur. Pima Indians Diyabet veri kümesi ile oluşturulan modeller kıyaslandığında, k-en yakın komşu algoritması ve FuzzyCSampling yaklaşımı ile oluşturulan modelin performansının (doğruluk:0,885; AUC: 0,872 ve F-ölçütü:0,846) diğer modellerden daha iyi olduğu gözlemlenmiştir. KDD Cup 1999 veri kümesi ile oluşturulan modellerin arasında da rastgele orman algoritması ve FuzzyCSampling yaklaşımının uygulanması durumunda diğer modellerden daha iyi performans sonuçları (doğruluk:0,999; kesinlik: 0,993 ve F-ölçütü:0,978) elde edildiği gözlemlenmiştir. Credit Card Fraud Detection veri kümesiyle oluşturulan modeller karşılaştırıldığında FuzzyCSampling yaklaşımının rastgele orman algoritması birlikte uygulanmasının performansı (AUC:0,941; kesinlik: 0,970 ve F-ölçütü:0,932) iyileştirdiği gözlemlenmiştir. Bu tez kapsamında dengesiz veri kümeleri problemine çözüm olarak sunulan FuzzyCSampling yaklaşımının ikili sınıflandırma problemlerinde iyi bir alternatif çözüm olduğu görülmüştür.

Özet (Çeviri)

The usage of imbalanced datasets would be another reason that prevents machine learning models from producing the desired performance results. Datasets that have an uneven distribution of the target variables are known as imbalanced datasets. The performance of algorithms used during building a machine learning model is better when the distribution of the target variables in the dataset is equal. For this reason, when building machine learning models, solutions for imbalanced datasets such as undersampling, oversampling, or hybrid approaches are applied to the problem. Within the scope of this thesis, a bibliometric analysis of the imbalanced datasets problem and its solutions was performed first, followed by the proposal of a new hybrid approach based on clustering for the imbalanced dataset problem. The FuzzyCSampling approach has decreased the rate of uneven distribution of the target variables by combining data sampling and clustering techniques. The proposed approach is used to create models with Pima Indians Diabetes, KDD Cup 1999 and Credit Card Fraud Detection datasets which have different imbalanced ratios and sizes, and the change in model performances is examined. The results were analyzed using the evaluation metrics accuracy, recall, precision, F1-score, and AUC. The dataset was divided into 70% training and 30% testing for the model performance evaluation. Moreover, support vector machines, k-nearest neighbor, and the random forest technique were used to build the models in Python. Models were created for the widely used solutions random undersampling, SMOTE, Borderline-SMOTE, and the absence of any solution in order to compare the effectiveness of the FuzzyCSampling approach. In a comparison of the models developed using the Pima Indians Diabetes dataset, it was found that the model developed using the k-nearest neighbor technique and the FuzzyCSampling approach performed (accuracy:0,885; AUC: 0,872 and F1-score:0,846) better than the other models. Among the models created with the KDD Cup 1999 dataset, it was also observed that better performance results (accuracy:0,999; precision: 0,993 and F1-score:0,978) were obtained when the random forest algorithm and the FuzzyCSampling approach were applied. When the models built with the Credit Card Fraud Detection dataset were compared, it is observed that utilizing the FuzzyCSampling approach in conjunction with the random forest algorithm improves the performance (AUC:0,941; precision: 0,970 and F1-score:0,932). The FuzzyCSampling strategy, which is put forth in this thesis as a solution for the issue of imbalanced datasets, was found to be a good alternative solution for binary classification problems.

Benzer Tezler

Tez No
841731
Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi
An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis
MUSTAFA YAVAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN
Tez No
895499
New proposed methods for synthetic minority over-sampling technique
Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler
HAKAN KORUL
Yüksek Lisans
İngilizce
2024
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
Tez No
894592
Improved helicopter classification via deep learning and overlapped range-doppler maps
Derin öğrenme ve örtüşen menzil-doppler görüntüleri ile geliştirilmiş helikopter sınıflandırması
DENİZ CAN ACER
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. IŞIN ERER
Tez No
887621
Visualization based analysis of gene networks using high dimensional model representation
Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi
PINAR GÜLER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
962554
Makine öğrenmesi yöntemleri ile yangın verilerinin analizi ve sınıflandırılması
Analysis and classification of fire data using machine learning methods
ZEYNEP NAZLI ASLAN
Yüksek Lisans
Türkçe
2025
İlk ve Acil Yardım Sakarya Üniversitesi
Afet Yönetimi Ana Bilim Dalı
DOÇ. DR. BEYTULLAH EREN

Geri Dön