Dengesiz verilerde sentetik azınlık aşırı örnek tekniklerinin (SMOTE) karşılaştırılması: İnme verisi örneği
Comparison of synthetic minority oversampling techniques (SMOTE) on imbalanced data: The stroke data example
- Tez No: 952067
- Danışmanlar: DR. ÖĞR. ÜYESİ ONUR TOKA
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 95
Özet
Dengesiz sınıflı veri problemi günümüzde sınıflandırma algoritmalarının kullanımını sınırlandıran en büyük problemlerden biridir. Bu çalışma kapsamında aşırı örnekleme tekniği olarak temel SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTETomek ve ADASYN algoritmaları ve sınıflandırma algoritması olarak lojistik regresyon (LR), rastgele ormanlar (RF), destek vektör makineleri (SVM) ve XGBoost (XGB) algoritmaları kullanılmıştır. Sınıflandırma performansları Kesinlik, Duyarlılık, F1 skoru, ROC eğrisi ve AUC değeri gibi ölçütler üzerinden karşılaştırılmış ve hangi ikilinin sınıflandırmada daha başarılı sonuçlar araştırılmıştır. Çalışmada bahsedilen performans ölçütleri kullanılarak ikili olarak performansları test edilmiş ve son bölümde her aşırı örnekleme algoritması için bir sınıflandırma algoritması seçilecek karşılaştırma yapılmış ve en verimli ikilinin ortaya çıkarılması amaçlanmıştır. Yapılan karşılaştırmaların sonucu olarak en yüksek performansa sahip ikili olarak, SMOTE-ENN aşırı örnekleme algoritması ve sınıflandırma algoritması olarak RF algoritması ikilisinin birlikte kullanımının en başarılı sınıflandırma yapan ikili olduğu gösterilmiştir.
Özet (Çeviri)
The class imbalance problem remains one of the most significant challenges limiting the effectiveness of classification algorithms in contemporary data-driven applications. This study investigates the impact of various oversampling techniques including SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTE-Tomek, and ADASYN on the performance of classification models. The classifiers employed in this evaluation are Logistic Regression (LR), Random Forest (RF), Support Vector Machines (SVM), and XGBoost (XGB). The models' performances were assessed based on widely used evaluation metrics, including Precision, Recall, F1-score, ROC curve and AUC value. The comparisons were conducted between oversampling techniques and classification algorithms to determine the most effective combinations. In the final phase of the study, a single best-performing classifier was selected for each oversampling method, followed by a comparative analysis to identify the overall most successful pair. The experimental results demonstrate that the combination of the SMOTE-ENN oversampling technique and the RF classifier yields the highest performance across the considered evaluation metrics, indicating it as the most effective pairs for handling imbalanced datasets in this context.
Benzer Tezler
- Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Sınıf dengesizliği içeren tıbbi verilerde akciğer kanseri evre sınıflandırması
Lung cancer stage classification on medical data with class imbalance
BİLAL TALHA AYVAZ
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik MühendisliğiKaradeniz Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AYTEN ATASOY
- A new data management system in IOT system
IOT sisteminde yeni bir veri yönetimi
ADHAM MADROOJ KHALEEFAH AL-OBAIDI
Yüksek Lisans
İngilizce
2024
Mühendislik Bilimleriİstanbul Gedik ÜniversitesiMühendislik Yönetimi Ana Bilim Dalı
Assist. Prof. Dr. TUĞBAY BURÇİN GÜMÜŞ
- Performance comparasion of data level imbalanced data handling techniques on a binary classification problem
Veri seviyesindeki dengesiz veri seti kullanım tekniklerinin ikili sınıflandırma problemleri üzerinde performanslarının karşılaştırılması
DERYA NUR COŞAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiMatematik Ana Bilim Dalı
PROF. DR. NURİ ÇELİK
- Basketbol milli takım aday oyuncu havuzunun makine öğrenimi algoritmalarıyla tahmini
Prediction of the national basketball team candidate player roster using machine learning algorithms
CANDİDE ÖZTÜRK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKOCAELİ SAĞLIK VE TEKNOLOJİ ÜNİVERSİTESİBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ULAŞ VURAL