Dengesiz veri setlerinde smoter ve özellik seçimi yöntemleriyle hibrit regresyon modeli geliştirilmesi

Development of a hybrid regression model using smoter and feature selection methods for imbalanced datasets

PDF İndir

Tez No: 942684
Yazar: EYÜPCAN GÜVEN
Danışmanlar: DOÇ. DR. EMRE DÜNDER
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Ondokuz Mayıs Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 57

Özet

Bu tez çalışmasında, dengesiz veri setlerine sahip regresyon problemlerinde SMOTER algoritması ve filtre tabanlı özellik seçimi yöntemlerinin etkileri incelenmiş; bu iki yaklaşımı birleştirerek hibrit bir model önerilmiştir. Çalışmada Boston, Compactiv, ForestFires, Mortgage ve Treasury veri setleri kullanılmıştır. Dengesiz veri problemi, hedef değişkenin değer dağılımındaki eşitsizlikten kaynaklanmakta ve bu durum, makine öğrenmesi modellerinin nadir (azınlık) gözlemleri yeterince öğrenememesine neden olmaktadır. Bu sorunu ele almak amacıyla öncelikle veri setleri eğitim (train) ve test olmak üzere ikiye ayrılmış; ardından z-skoru yöntemiyle değişkenler standartlaştırılmıştır. Box-plot yöntemi ile her bir veri setinde azınlık gözlemler belirlenmiş ve bu adım, Regresyon için Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTER) algoritmasının daha etkili çalışabilmesi için önemli bir ön hazırlık süreci olarak değerlendirilmiştir. Belirlenen azınlık değerler dikkate alınarak, SMOTER algoritması kullanılarak veri setleri dengelenmiştir. Dengeleme işleminin ardından, modelleme sürecinde hedef değişkenle daha yüksek ilişki gösteren değişkenlerin belirlenmesi amacıyla filtre tabanlı özellik seçimi yöntemleri uygulanmıştır. Bu yöntemler sayesinde, makine öğrenmesi modellerinin tahmin performansının artırılması hedeflenmiştir. Kullanılan filtre tabanlı yöntemler arasında Bilgi Kazancı (IG), Kazanç Oranı (GR), Simetrik Belirsizlik Katsayısı (SR), Koşullu Ortak Bilgi Maksimizasyonu (CMIM), Ortak Karşılıklı Bilgi Maksimizasyonu (JMIM), Çift Girdi Simetrik İlişki (DISR), Normalleştirilmiş Ortak Karşılıklı Bilgi Maksimizasyonu (NJMIM), Maksimum İlişki Minimum Yineleme (MRMR) ve Ortak Bilgi Maksimizasyonu (MIM) yer almaktadır. Modelleme aşamasında ise Rastgele Ormanlar, Destek Vektör Makineleri (SVM), Ağırlıklandırılmış K-En Yakın Komşu (WKNN) ve Gradyan Artırma Makineleri (GBM) algoritmaları kullanılmıştır. Modellerin performansı, Ağırlıklı Ortalama Kare Hata (WMSE), Ağırlıklı Kök Ortalama Kare Hata (WRMSE) ve Kare Hata-İlgililik Alanı (SERA) metrikleri ile değerlendirilmiştir. Elde edilen sonuçlar, SMOTER algoritmasının dengesiz veri setlerinde etkili bir dengeleme aracı olduğunu ve filtre tabanlı özellik seçimi yöntemlerinin veri setine özgü olarak dikkatle seçilmesi gerektiğini göstermektedir. Ayrıca, bu iki yöntemin birlikte kullanıldığı hibrit modelin, regresyon problemlerinde anlamlı performans artışları sağladığı ve bu yaklaşımın gelecekte daha kapsamlı araştırmalarla geliştirilmesi gerektiği sonucuna ulaşılmıştır.

Özet (Çeviri)

In this thesis, the effects of the SMOTER algorithm and filter-based feature selection methods on regression problems with imbalanced datasets are investigated, and a hybrid model that combines these two approaches is proposed. The study utilizes five datasets: Boston, Compactiv, ForestFires, Mortgage, and Treasury. The imbalance problem arises from the unequal distribution of target variable values, which hinders machine learning models from effectively learning from rare (minority) observations. To address this issue, each dataset was first split into training and testing sets, and then standardized using the z-score method. Minority observations were identified using the box-plot method, serving as a crucial preprocessing step to enhance the effectiveness of the Synthetic Minority Over-sampling Technique for Regression (SMOTER). Based on the identified minority values, datasets were balanced using the SMOTER algorithm. Following the balancing process, filter-based feature selection methods were applied to identify variables with stronger relationships to the target variable, aiming to improve the predictive performance of machine learning models. The applied filter-based methods include Information Gain (IG), Gain Ratio (GR), Symmetrical Uncertainty (SU), Conditional Mutual Information Maximization (CMIM), Joint Mutual Information Maximization (JMIM), Double Input Symmetrical Relevance (DISR), Normalized Joint Mutual Information Maximization (NJMIM), Minimum Redundancy Maximum Relevance (MRMR), and Mutual Information Maximization (MIM). In the modeling phase, Random Forest, Support Vector Machines (SVM), Weighted K-Nearest Neighbors (WKNN), and Gradient Boosting Machines (GBM) algorithms were used. Model performance was evaluated using Weighted Mean Squared Error (WMSE), Weighted Root Mean Squared Error (WRMSE), and Squared Error-Relevance Area (SERA) metrics. The results demonstrate that the SMOTER algorithm is an effective tool for balancing imbalanced datasets, and that filter-based feature selection methods should be carefully chosen based on dataset-specific characteristics. Furthermore, the proposed hybrid approach, which combines both techniques, provides significant performance improvements in regression problems and warrants further investigation in future research.

Benzer Tezler

Tez No
959215
Comparative study of federated learning for credit risk assessment and fairness evaluation
Federe öğrenmenin karşılaştırmalı çalışması: Kredi risk değerlendirmesi ve adalet ölçümü
MUSTAFA AKTAŞ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
DR. RUŞEN HALEPMOLLASI
Tez No
719239
IMDB movie rating prediction with feature extraction and machine learning methods
Özellik çıkarımı ve makine öğrenimi ile IMDB film puanı tahmini
AHMET FATİH DERELİ
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliği Marmara Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SENİYE ÜMİT FIRAT
YRD. DOÇ. DR. CANAN AĞLAN
Tez No
953165
Makine öğrenmesi yaklaşımı ile banka müşterilerinin kredi riski tahmini ve kural çıkarımı
Bank customers' credit risk estimation and rule extraction with the machine learning approach
HİLAL MEYDAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MERT BAL
Tez No
723370
A robust gradient boosting model based on smote and near miss methods for intrusion detection in imbalanced data sets
Saldırı tespit sistemleri için dengesiz veri setlerinde smote ve near mıss metotlarına dayalı güçlü gradyan artırma modeli
AHMET OKAN ARIK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Işık Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU
Tez No
887846
Train set complexity tunning for imbalance learning
Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması
MEHMET ULAŞ
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. MEHMET ALİ ERGÜN

Geri Dön