Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi
Evaluation of the effect of data balancing and feature selection on the performance of machine learning algorithms in classification problems with multi-criteria decision making
- Tez No: 924231
- Danışmanlar: PROF. DR. NİMET YAPICI PEHLİVAN
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 159
Özet
Makine öğrenmesi uygulamalarında, veri kümelerinin dengesiz olma durumu sıklıkla karşılaşılan önemli bir sorundur. Dengesiz veri kümelerinde, sınıflandırma algoritmalarının çoğunluk sınıfına daha fazla ağırlık vererek, azınlık sınıfının doğru şekilde tahmin edilmesini zorlaştırdığı ve bu durumun makine öğrenmesi algoritmalarının performansını olumsuz yönde etkilediği bilinmektedir. Bu amaçla, yeniden örnekleme teknikleri gibi çeşitli yöntemler geliştirilmiş ve veri kümelerinin dengeli hale getirilmesi sağlanmıştır. Veri kümelerinde çok sayıda değişkenin yer alması makine öğrenmesi algoritmalarının performansını etkileyen bir başka sorundur. Özellik seçimi yöntemleriyle, ilgisiz ya da gereksiz değişkenlerin veri kümesinden çıkartılması makine öğrenmesi algoritmalarının performansları üzerinde kritik rol oynamaktadır. Bu tez çalışmasında, birçok çalışmada ele alınan farklı dengesizlik oranlarına sahip Cleveland Kalp Hastalığı (CHD), Pima Hintli Diyabet (PID) ve Kırmızı Şarap Kalitesi (RWQ) veri kümeleri kullanılmıştır. Dengesiz veri kümeleri üzerinde yeniden örnekleme yöntemleri (SMOTE, SMOTE-ENN) ve gömülü özellik seçim yöntemleri (LASSO, Elastik Net), sarmalayıcı özellik seçimi yöntemleri (PSO, ABC) uygulanarak ve uygulanmadan makine öğrenimi algoritmalarından elde edilen performanslar metrikleri değerlendirilmiştir. Ele alınan veri kümeleri için, Çok Kriterli Karar Verme yöntemlerinden Entropi ve CRITIC ile performans metriklerine ilişkin ağırlıklar hesaplanmış ve TOPSIS,WASPAS, MABAC yöntemleri ile bu algoritmaların sıralamaları oluşturulmuştur. Elde edilen sıralamalar sonucunda nihai sıralama yapabilmek amacıyla, Borda Sayım yöntemi kullanılarak en iyi makine öğrenmesi / bütünleşik makine öğrenmesi algoritmaları belirlenmiştir. Sonuçlar, veri dengeleme ve özellik seçiminin ele alınan makine öğrenmesi algoritmalarının (KNN, SVM, DT, RF, XGB, LR, ADB, NB) sınıflandırma performansını artırmada etkili olduğunu göstermiştir. Özellikle, SMOTE ile veri dengelemenin ve bunun yanı sıra gömülü ve sarmalayıcı yöntemlerle yapılan özellik seçiminin performanslar üzerinde etkisinin olduğu gösterilmiştir. SMOTE ve SMOTE-ENN yöntemleri ile dengelenmiş verilerde RF ve XGB algoritmaları en iyi sonuçları vermiştir. CHD veri kümesinde SMOTE uygulanmış RF algoritması; PID veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı XGB algoritması ve RWQ veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı RF algoritması ele alınan bütünleşik makine öğrenmesi algoritmaları arasında öne çıkmıştır.
Özet (Çeviri)
In machine learning applications, imbalanced datasets are a frequently encountered problem. It is known that in imbalanced datasets, classification algorithms give more weight to the majority class, making it difficult to correctly predict the minority class, and this negatively affects the performance of machine learning algorithms. For this aim, various methods such as resampling techniques have been developed and the datasets have been balanced. The presence of a large number of variables in datasets is another problem that affects the performance of machine learning algorithms. Removing irrelevant or redundant variables from the dataset with feature selection methods plays a critical role in the performance of machine learning algorithms. In this thesis, Cleveland Heart Disease (CHD), Pima Indian Diabetes (PID), and Red Wine Quality (RWQ) datasets with different imbalance ratios, addressed in many studies, were used. Performance metrics obtained from machine learning algorithms with/without applying resampling methods (SMOTE, SMOTE-ENN), embedded (LASSO, Elastic Net) and wrapper (PSO, ABC) feature selection methods on imbalanced datasets have been evaluated. For considered datasets, weights regarding performance metrics were calculated by Entropy and CRITIC and rankings of these algorithms were created by TOPSIS, WASPAS, MABAC methods, which are Multi Criteria Decision Making methods. As a result of the rankings, in order to make a final ranking, the best machine learning/integrated machine learning algorithms were determined by using Borda Count method. The results showed that data balancing and feature selection are effective in improving the classification performance of the considered machine learning algorithms (KNN, SVM, DT, RF, XGB, LR, ADB, NB). In particular, it has been shown that data balancing with SMOTE and feature selection based on embedded and wrapper methods have an effect on the performances. RF and XGB algorithms gave the best results on balanced data with SMOTE and SMOTE-ENN methods. RF algorithm with SMOTE applied on CHD dataset; XGB algorithm based on ABC feature selection with SMOTE applied on PID dataset and RF algorithm based on ABC feature selection with SMOTE applied on RWQ dataset stood out among the integrated machine learning algorithms considered.
Benzer Tezler
- Aydınlatmanın görüntü işleme problemlerine etkisinin yapay zeka teknikleri kullanılarak analizi
Analysis of the effect of lighting on image processing problems using artificial intelligence techniques
BİRKAN BÜYÜKARIKAN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ERKAN ÜLKER
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Short term electricity load forecasting with deep learning
Derin öğrenme ile kısa dönemli elektrik yük talep tahmini
İBRAHİM YAZICI
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA
- Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi
Examination of approaches affecting classification performance in imbalanced data sets
SALİHA DEMİRSÖZ
Yüksek Lisans
Türkçe
2024
BiyoistatistikSelçuk ÜniversitesiBiyoistatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HARUN YONAR
- Sınıf dengeleme yöntemlerinin makine öğrenmesi teknikleri üzerine etkisi: Kredi risk örneği
The effect of class balancing methods on machine learning techniques: Example of credit risk
MİGRAÇ ENES FURKAN MİLLİ
Yüksek Lisans
Türkçe
2022
BankacılıkDokuz Eylül ÜniversitesiEkonometri Ana Bilim Dalı
PROF. DR. İPEK DEVECİ KOCAKOÇ