Dengesiz verilere sınıflandırma algoritmaları uygulanırken kullanılan yöntemlerin karşılaştırılmasına ait bir analiz
An analysis of comparison of methods used when applying classification algorithms to imbalanced datasets
- Tez No: 802877
- Danışmanlar: PROF. DR. EMRAH ÖNDER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Yönetim Bilişim Sistemleri, İşletme, Computer Engineering and Computer Science and Control, Management Information Systems, Business Administration
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Sayısal Yöntemler Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 102
Özet
Makine öğreniminin öğrenme türlerinden biri olan denetimli öğrenmede yer alan sınıflandırma algoritmalarıyla kurulan modellerin tahminler gerçekleştirdiği uygulamalarda, veri setlerinin hedef özniteliğinde yer alan sınıfların dağılımının, birbirlerine eşit veya yakın olduğu varsayılmaktadır. Gerçek hayat uygulamalarında ise, bu varsayımın çoğu zaman sağlanmadığı görülmektedir. Varsayımın sağlanmadığı durumlarda veri seti, dengesiz veri seti olarak nitelendirilmekte olsa da dengesiz veri seti problemi çoğunlukla, hedef özniteliğinin sınıf dağılımları arasında anlamlı farklılık bulunan veri setlerinde yaşanan bir problem olarak tanımlanmaktadır. Dengesiz veri seti problemi, makine öğreniminde, sınıflandırma algoritmaları ile kurulan modellerin eğitim aşamalarında olumsuz bir faktör olarak modelin eğitimini etkilemekte ve modelin test aşamasında gerçekleştirdiği tahmin etme işleminin performansını düşürmektedir. Olumsuz faktör olarak modelin performansını etkilemeleri nedeniyle, dengesiz veri setleri problemi ile sınıflandırma uygulamalarında çözülmesi gereken önemli bir sorun olarak karşılaşılmaktadır. Dengesiz veri seti probleminin temel olarak iki farklı çözüm yaklaşımı vardır. Bu çözüm yaklaşımları; veri seti seviyesinde çözüm yaklaşımları ve maliyet duyarlı çözüm yaklaşımları olarak sıralanmaktadır. Bu çalışmada araç sigorta poliçelerine ait bilgileri içeren veri seti, beyin felci hastalarının bilgilerini içeren veri seti ve felçli askeri gaziler için bağış yapan donörlere ait bilgileri içeren veri seti olmak üzere, 3 farklı veri seti kullanılmıştır. Her bir veri setinin detaylı analizi sonucunda, dengesiz veri seti probleminin varlığı tespit edilmiş ve dengesiz veri seti problemini çözmek için veri seti seviyesinde çözüm yaklaşımları içinde yer alan farklı yaklaşımlar uygulanmıştır. Uygulanan farklı yaklaşımlardan sonra sınıflandırma modellerine ait performans metrikleri ve karmaşıklık matrisleri incelenerek yorumlanmıştır. Dengesiz veri seti problemini çözme yaklaşımlarından sonra oluşturulup uygulanan sınıflandırma modellerinin başarılı performans metriklerine sahip oldukları görülmüştür.
Özet (Çeviri)
In applications where models established with classification algorithms in supervised learning, one of the learning types of machine learning that make predictions, it is assumed that the distribution of the classes in the target features of the datasets is equal or close to each other. In real life applications, however, this assumption is often not met. Although the dataset is described as an imbalanced dataset in cases where the assumption is not met, the imbalanced dataset problem is mostly defined as a problem experienced in datasets where there are significant differences between the class distributions of the target feature. The imbalanced dataset problem affects the training of the model as a negative factor in the training stages of the models established with classification algorithms in machine learning and reduces the performance of the estimation process performed by the model in the testing phase. The problem of imbalanced datasets is encountered as an important problem to be solved in classification applications because they affect the performance of the model as a negative factor. There are basically two different solution approaches to the imbalanced dataset problem. These solution approaches are; are listed as dataset level solution approaches and cost sensitive solution approaches. In this study, 3 different datasets were used: the dataset containing the information about the vehicle insurance policies, the dataset containing the information of the cerebral stroke patients, and the dataset containing the information of the donors who donated for the paralyzed military veterans. As a result of the detailed analysis of each dataset, the existence of the imbalanced dataset problem was determined and different approaches included in the dataset level solution approaches were applied to solve the imbalanced dataset problem. After different approaches applied, performance metrics and confusion matrices of classification models were examined and interpreted. It has been seen that the classification models that are created and applied after the approaches to solving the imbalanced dataset problem have successful performance metrics.
Benzer Tezler
- Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
- Improved helicopter classification via deep learning and overlapped range-doppler maps
Derin öğrenme ve örtüşen menzil-doppler görüntüleri ile geliştirilmiş helikopter sınıflandırması
DENİZ CAN ACER
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. IŞIN ERER
- Histopatolojik görüntülerin makine öğrenmesi yöntemleri ile analizi
Analysis of histopathological images via machine learning methods
ABDÜLKADİR ALBAYRAK
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN
- Üniversite öğrencilerinin uzaktan eğitime ilişkin sosyal kaygısının makine öğrenmesi ile tahmini
Prediction of university students' social anxiety about distance education with machine learning
ZEYNEB UYLAŞ AKSU
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. SEVİNÇ GÜLSEÇEN
- Visualization based analysis of gene networks using high dimensional model representation
Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi
PINAR GÜLER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA