Geri Dön

Dengesiz verilerde sentetik azınlık aşırı örnek tekniklerinin (SMOTE) karşılaştırılması: İnme verisi örneği

Comparison of synthetic minority oversampling techniques (SMOTE) on imbalanced data: The stroke data example

  1. Tez No: 952067
  2. Yazar: ÖNDER ÖZER
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ONUR TOKA
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 95

Özet

Dengesiz sınıflı veri problemi günümüzde sınıflandırma algoritmalarının kullanımını sınırlandıran en büyük problemlerden biridir. Bu çalışma kapsamında aşırı örnekleme tekniği olarak temel SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTETomek ve ADASYN algoritmaları ve sınıflandırma algoritması olarak lojistik regresyon (LR), rastgele ormanlar (RF), destek vektör makineleri (SVM) ve XGBoost (XGB) algoritmaları kullanılmıştır. Sınıflandırma performansları Kesinlik, Duyarlılık, F1 skoru, ROC eğrisi ve AUC değeri gibi ölçütler üzerinden karşılaştırılmış ve hangi ikilinin sınıflandırmada daha başarılı sonuçlar araştırılmıştır. Çalışmada bahsedilen performans ölçütleri kullanılarak ikili olarak performansları test edilmiş ve son bölümde her aşırı örnekleme algoritması için bir sınıflandırma algoritması seçilecek karşılaştırma yapılmış ve en verimli ikilinin ortaya çıkarılması amaçlanmıştır. Yapılan karşılaştırmaların sonucu olarak en yüksek performansa sahip ikili olarak, SMOTE-ENN aşırı örnekleme algoritması ve sınıflandırma algoritması olarak RF algoritması ikilisinin birlikte kullanımının en başarılı sınıflandırma yapan ikili olduğu gösterilmiştir.

Özet (Çeviri)

The class imbalance problem remains one of the most significant challenges limiting the effectiveness of classification algorithms in contemporary data-driven applications. This study investigates the impact of various oversampling techniques including SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTE-Tomek, and ADASYN on the performance of classification models. The classifiers employed in this evaluation are Logistic Regression (LR), Random Forest (RF), Support Vector Machines (SVM), and XGBoost (XGB). The models' performances were assessed based on widely used evaluation metrics, including Precision, Recall, F1-score, ROC curve and AUC value. The comparisons were conducted between oversampling techniques and classification algorithms to determine the most effective combinations. In the final phase of the study, a single best-performing classifier was selected for each oversampling method, followed by a comparative analysis to identify the overall most successful pair. The experimental results demonstrate that the combination of the SMOTE-ENN oversampling technique and the RF classifier yields the highest performance across the considered evaluation metrics, indicating it as the most effective pairs for handling imbalanced datasets in this context.

Benzer Tezler

  1. Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders

    Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi

    AKRAM M.M. RADWAN

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  2. Sınıf dengesizliği içeren tıbbi verilerde akciğer kanseri evre sınıflandırması

    Lung cancer stage classification on medical data with class imbalance

    BİLAL TALHA AYVAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Elektrik ve Elektronik MühendisliğiKaradeniz Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYTEN ATASOY

  3. A new data management system in IOT system

    IOT sisteminde yeni bir veri yönetimi

    ADHAM MADROOJ KHALEEFAH AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mühendislik Bilimleriİstanbul Gedik Üniversitesi

    Mühendislik Yönetimi Ana Bilim Dalı

    Assist. Prof. Dr. TUĞBAY BURÇİN GÜMÜŞ

  4. Performance comparasion of data level imbalanced data handling techniques on a binary classification problem

    Veri seviyesindeki dengesiz veri seti kullanım tekniklerinin ikili sınıflandırma problemleri üzerinde performanslarının karşılaştırılması

    DERYA NUR COŞAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Matematik Ana Bilim Dalı

    PROF. DR. NURİ ÇELİK

  5. Basketbol milli takım aday oyuncu havuzunun makine öğrenimi algoritmalarıyla tahmini

    Prediction of the national basketball team candidate player roster using machine learning algorithms

    CANDİDE ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKOCAELİ SAĞLIK VE TEKNOLOJİ ÜNİVERSİTESİ

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ULAŞ VURAL