Dengesiz veri setlerinde hibrit yeniden örnekleme yöntemlerinin karşılaştırılması
Comparison of hybrid resampling methods in imbalanced datasets
- Tez No: 941587
- Danışmanlar: DR. ÖĞR. ÜYESİ NİDA GÖKÇE NARİN
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Muğla Sıtkı Koçman Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yapay Zeka Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 34
Özet
Makine öğrenimi sınıflandırma çalışmalarında, bir sınıfın diğerine göre az temsil edilmesi, verinin dengesiz olması durumu sonuçların azınlık aleyhinde çarpık olmasına neden olmaktadır. Dengesiz veri setleriyle çalışmak için bir takım dengesiz öğrenme yöntemleri bulunmaktadır. Bu tezde, makine öğreniminde dengesiz öğrenme yöntemlerinden yeniden örnekleme yöntemleri ele alındı. Veri seti olarak trafik kazaları sonucunda hukuklaşmaya giden ve gitmeyen sınıfların olduğu, hukuklaşmaya gidenlerin %2 oranında temsil edildiği dengesiz bir veri seti kullanıldı. Veri setindeki hukuklaşmaya giden örneklerin düşük sayısı nedeniyle modelin ön yargılı davranmasını aşmak için, yeniden örnekleme yöntemleri tek başına ve hibrit olarak kullanarak çeşitli denemeler gerçekleştirilmiştir. Bu çalışmada makine öğrenimi algoritması olarak, dengesiz veri setlerinin eğitiminde başarımı yüksek olan rastgele orman kullanılmıştır. Herhangi bir dengesiz öğrenme yöntemi uygulanmadan direkt olarak rastgele orman ile geliştirilen modelde kesinlik skoru %100, duyarlılık %4 ve F1 skor %7 elde edilmiştir. Ele alınan problemde duyarlılık ve kesinlik skorlarının daha önemli olmasından dolayı bu metrikler üzerine çalışılmış ve başarılı olan hibrit modelde skorlar kesinlik skoru için %36, duyarlılık %22 ve F1 skor %28 elde edilmiştir. Bu çalışma sonucunda elde edilen bulgular, yeniden örnekleme yöntemlerinin etkinliği, hibrit yaklaşımların avantajları ve başarım kriterleri stratejilerinin katkıları üzerine odaklanmış ve trafik kazalarında hukuklaşmaya giden olayların tahmin başarısını arttırmayı amaçlamıştır. Çalışmanın amacı yüksek boyutlu ve karmaşık veri setlerinde dengesiz sınıf problemini çözecek hibrit yöntemleri belirlemektir. Bu çalışmanın sonuçları, trafik kazalarının hukuki sonuçlarını ön görmeye yönelik sınıflandırma modelleri tasarlamak isteyen araştırmacılara değerli bir yol haritası sunmaktadır.
Özet (Çeviri)
In machine learning classification studies, when one class is underrepresented compared to another, the imbalance in the data can lead to skewed results against the minority class. To address this, several imbalanced learning methods are used to work with imbalanced datasets. In this thesis, resampling methods, which are a part of imbalanced learning methods in machine learning, were examined. The dataset used was an imbalanced dataset consisting of traffic accidents that either resulted in litigation or did not, with cases that went to litigation being represented at a rate of 2%. Due to the low number of litigation cases in the dataset, various experiments were conducted using resampling methods both alone and in hybrid forms to overcome model bias. In this study, Random Forest, which is known for its high performance in training imbalanced datasets, was used as the machine learning algorithm. In the model developed directly with Random Forest without applying any imbalanced learning method, the precision score was 100%, recall was 4%, and F1 score was 7%. Given that recall and precision scores are more significant for the problem at hand, these metrics were focused on. In the successful hybrid model, the scores achieved were 36% for precision, 22% for recall, and 28% for F1 score. The findings of this study focused on the effectiveness of resampling methods, the advantages of hybrid approaches, and the contributions of performance criteria strategies, aiming to improve the prediction success of litigation cases in traffic accidents. The results of this study provide valuable guidelines for researchers designing classification models to predict the legal outcomes of traffic accidents
Benzer Tezler
- Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
- Dengesiz veri setlerinde smoter ve özellik seçimi yöntemleriyle hibrit regresyon modeli geliştirilmesi
Development of a hybrid regression model using smoter and feature selection methods for imbalanced datasets
EYÜPCAN GÜVEN
Yüksek Lisans
Türkçe
2025
İstatistikOndokuz Mayıs Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. EMRE DÜNDER
- Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi
Examination of approaches affecting classification performance in imbalanced data sets
SALİHA DEMİRSÖZ
Yüksek Lisans
Türkçe
2024
BiyoistatistikSelçuk ÜniversitesiBiyoistatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HARUN YONAR
- Dengesiz veri setlerinde aşırı örnekleme teknikleri ile makine öğrenmesi yaklaşımlarının karşılaştırılması
Comparison of machine learning approaches by using oversampling techniques on imbalanced datasets
ÜMİT DİLBAZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik ÜniversitesiAkıllı Mühendislik Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ÖZGÜR CİNGİZ
- Veri madenciliğinde hibrit model yaklaşımı
Hybrid model approach in data mining
BATUHAN BAKIRARAR
Doktora
Türkçe
2021
BiyoistatistikAnkara ÜniversitesiBiyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
PROF. DR. ATİLLA HALİL ELHAN