Geri Dön

Dengesiz veri setlerinde smoter ve özellik seçimi yöntemleriyle hibrit regresyon modeli geliştirilmesi

Development of a hybrid regression model using smoter and feature selection methods for imbalanced datasets

  1. Tez No: 942684
  2. Yazar: EYÜPCAN GÜVEN
  3. Danışmanlar: DOÇ. DR. EMRE DÜNDER
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Bu tez çalışmasında, dengesiz veri setlerine sahip regresyon problemlerinde SMOTER algoritması ve filtre tabanlı özellik seçimi yöntemlerinin etkileri incelenmiş; bu iki yaklaşımı birleştirerek hibrit bir model önerilmiştir. Çalışmada Boston, Compactiv, ForestFires, Mortgage ve Treasury veri setleri kullanılmıştır. Dengesiz veri problemi, hedef değişkenin değer dağılımındaki eşitsizlikten kaynaklanmakta ve bu durum, makine öğrenmesi modellerinin nadir (azınlık) gözlemleri yeterince öğrenememesine neden olmaktadır. Bu sorunu ele almak amacıyla öncelikle veri setleri eğitim (train) ve test olmak üzere ikiye ayrılmış; ardından z-skoru yöntemiyle değişkenler standartlaştırılmıştır. Box-plot yöntemi ile her bir veri setinde azınlık gözlemler belirlenmiş ve bu adım, Regresyon için Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTER) algoritmasının daha etkili çalışabilmesi için önemli bir ön hazırlık süreci olarak değerlendirilmiştir. Belirlenen azınlık değerler dikkate alınarak, SMOTER algoritması kullanılarak veri setleri dengelenmiştir. Dengeleme işleminin ardından, modelleme sürecinde hedef değişkenle daha yüksek ilişki gösteren değişkenlerin belirlenmesi amacıyla filtre tabanlı özellik seçimi yöntemleri uygulanmıştır. Bu yöntemler sayesinde, makine öğrenmesi modellerinin tahmin performansının artırılması hedeflenmiştir. Kullanılan filtre tabanlı yöntemler arasında Bilgi Kazancı (IG), Kazanç Oranı (GR), Simetrik Belirsizlik Katsayısı (SR), Koşullu Ortak Bilgi Maksimizasyonu (CMIM), Ortak Karşılıklı Bilgi Maksimizasyonu (JMIM), Çift Girdi Simetrik İlişki (DISR), Normalleştirilmiş Ortak Karşılıklı Bilgi Maksimizasyonu (NJMIM), Maksimum İlişki Minimum Yineleme (MRMR) ve Ortak Bilgi Maksimizasyonu (MIM) yer almaktadır. Modelleme aşamasında ise Rastgele Ormanlar, Destek Vektör Makineleri (SVM), Ağırlıklandırılmış K-En Yakın Komşu (WKNN) ve Gradyan Artırma Makineleri (GBM) algoritmaları kullanılmıştır. Modellerin performansı, Ağırlıklı Ortalama Kare Hata (WMSE), Ağırlıklı Kök Ortalama Kare Hata (WRMSE) ve Kare Hata-İlgililik Alanı (SERA) metrikleri ile değerlendirilmiştir. Elde edilen sonuçlar, SMOTER algoritmasının dengesiz veri setlerinde etkili bir dengeleme aracı olduğunu ve filtre tabanlı özellik seçimi yöntemlerinin veri setine özgü olarak dikkatle seçilmesi gerektiğini göstermektedir. Ayrıca, bu iki yöntemin birlikte kullanıldığı hibrit modelin, regresyon problemlerinde anlamlı performans artışları sağladığı ve bu yaklaşımın gelecekte daha kapsamlı araştırmalarla geliştirilmesi gerektiği sonucuna ulaşılmıştır.

Özet (Çeviri)

In this thesis, the effects of the SMOTER algorithm and filter-based feature selection methods on regression problems with imbalanced datasets are investigated, and a hybrid model that combines these two approaches is proposed. The study utilizes five datasets: Boston, Compactiv, ForestFires, Mortgage, and Treasury. The imbalance problem arises from the unequal distribution of target variable values, which hinders machine learning models from effectively learning from rare (minority) observations. To address this issue, each dataset was first split into training and testing sets, and then standardized using the z-score method. Minority observations were identified using the box-plot method, serving as a crucial preprocessing step to enhance the effectiveness of the Synthetic Minority Over-sampling Technique for Regression (SMOTER). Based on the identified minority values, datasets were balanced using the SMOTER algorithm. Following the balancing process, filter-based feature selection methods were applied to identify variables with stronger relationships to the target variable, aiming to improve the predictive performance of machine learning models. The applied filter-based methods include Information Gain (IG), Gain Ratio (GR), Symmetrical Uncertainty (SU), Conditional Mutual Information Maximization (CMIM), Joint Mutual Information Maximization (JMIM), Double Input Symmetrical Relevance (DISR), Normalized Joint Mutual Information Maximization (NJMIM), Minimum Redundancy Maximum Relevance (MRMR), and Mutual Information Maximization (MIM). In the modeling phase, Random Forest, Support Vector Machines (SVM), Weighted K-Nearest Neighbors (WKNN), and Gradient Boosting Machines (GBM) algorithms were used. Model performance was evaluated using Weighted Mean Squared Error (WMSE), Weighted Root Mean Squared Error (WRMSE), and Squared Error-Relevance Area (SERA) metrics. The results demonstrate that the SMOTER algorithm is an effective tool for balancing imbalanced datasets, and that filter-based feature selection methods should be carefully chosen based on dataset-specific characteristics. Furthermore, the proposed hybrid approach, which combines both techniques, provides significant performance improvements in regression problems and warrants further investigation in future research.

Benzer Tezler

  1. Comparative study of federated learning for credit risk assessment and fairness evaluation

    Federe öğrenmenin karşılaştırmalı çalışması: Kredi risk değerlendirmesi ve adalet ölçümü

    MUSTAFA AKTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

    DR. RUŞEN HALEPMOLLASI

  2. IMDB movie rating prediction with feature extraction and machine learning methods

    Özellik çıkarımı ve makine öğrenimi ile IMDB film puanı tahmini

    AHMET FATİH DERELİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiMarmara Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SENİYE ÜMİT FIRAT

    YRD. DOÇ. DR. CANAN AĞLAN

  3. Makine öğrenmesi yaklaşımı ile banka müşterilerinin kredi riski tahmini ve kural çıkarımı

    Bank customers' credit risk estimation and rule extraction with the machine learning approach

    HİLAL MEYDAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MERT BAL

  4. A robust gradient boosting model based on smote and near miss methods for intrusion detection in imbalanced data sets

    Saldırı tespit sistemleri için dengesiz veri setlerinde smote ve near mıss metotlarına dayalı güçlü gradyan artırma modeli

    AHMET OKAN ARIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU

  5. Train set complexity tunning for imbalance learning

    Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması

    MEHMET ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. MEHMET ALİ ERGÜN