Geri Dön

Dengesiz verilere sınıflandırma algoritmaları uygulanırken kullanılan yöntemlerin karşılaştırılmasına ait bir analiz

An analysis of comparison of methods used when applying classification algorithms to imbalanced datasets

  1. Tez No: 802877
  2. Yazar: KUTLUK ATALAY
  3. Danışmanlar: PROF. DR. EMRAH ÖNDER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Yönetim Bilişim Sistemleri, İşletme, Computer Engineering and Computer Science and Control, Management Information Systems, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Sayısal Yöntemler Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Makine öğreniminin öğrenme türlerinden biri olan denetimli öğrenmede yer alan sınıflandırma algoritmalarıyla kurulan modellerin tahminler gerçekleştirdiği uygulamalarda, veri setlerinin hedef özniteliğinde yer alan sınıfların dağılımının, birbirlerine eşit veya yakın olduğu varsayılmaktadır. Gerçek hayat uygulamalarında ise, bu varsayımın çoğu zaman sağlanmadığı görülmektedir. Varsayımın sağlanmadığı durumlarda veri seti, dengesiz veri seti olarak nitelendirilmekte olsa da dengesiz veri seti problemi çoğunlukla, hedef özniteliğinin sınıf dağılımları arasında anlamlı farklılık bulunan veri setlerinde yaşanan bir problem olarak tanımlanmaktadır. Dengesiz veri seti problemi, makine öğreniminde, sınıflandırma algoritmaları ile kurulan modellerin eğitim aşamalarında olumsuz bir faktör olarak modelin eğitimini etkilemekte ve modelin test aşamasında gerçekleştirdiği tahmin etme işleminin performansını düşürmektedir. Olumsuz faktör olarak modelin performansını etkilemeleri nedeniyle, dengesiz veri setleri problemi ile sınıflandırma uygulamalarında çözülmesi gereken önemli bir sorun olarak karşılaşılmaktadır. Dengesiz veri seti probleminin temel olarak iki farklı çözüm yaklaşımı vardır. Bu çözüm yaklaşımları; veri seti seviyesinde çözüm yaklaşımları ve maliyet duyarlı çözüm yaklaşımları olarak sıralanmaktadır. Bu çalışmada araç sigorta poliçelerine ait bilgileri içeren veri seti, beyin felci hastalarının bilgilerini içeren veri seti ve felçli askeri gaziler için bağış yapan donörlere ait bilgileri içeren veri seti olmak üzere, 3 farklı veri seti kullanılmıştır. Her bir veri setinin detaylı analizi sonucunda, dengesiz veri seti probleminin varlığı tespit edilmiş ve dengesiz veri seti problemini çözmek için veri seti seviyesinde çözüm yaklaşımları içinde yer alan farklı yaklaşımlar uygulanmıştır. Uygulanan farklı yaklaşımlardan sonra sınıflandırma modellerine ait performans metrikleri ve karmaşıklık matrisleri incelenerek yorumlanmıştır. Dengesiz veri seti problemini çözme yaklaşımlarından sonra oluşturulup uygulanan sınıflandırma modellerinin başarılı performans metriklerine sahip oldukları görülmüştür.

Özet (Çeviri)

In applications where models established with classification algorithms in supervised learning, one of the learning types of machine learning that make predictions, it is assumed that the distribution of the classes in the target features of the datasets is equal or close to each other. In real life applications, however, this assumption is often not met. Although the dataset is described as an imbalanced dataset in cases where the assumption is not met, the imbalanced dataset problem is mostly defined as a problem experienced in datasets where there are significant differences between the class distributions of the target feature. The imbalanced dataset problem affects the training of the model as a negative factor in the training stages of the models established with classification algorithms in machine learning and reduces the performance of the estimation process performed by the model in the testing phase. The problem of imbalanced datasets is encountered as an important problem to be solved in classification applications because they affect the performance of the model as a negative factor. There are basically two different solution approaches to the imbalanced dataset problem. These solution approaches are; are listed as dataset level solution approaches and cost sensitive solution approaches. In this study, 3 different datasets were used: the dataset containing the information about the vehicle insurance policies, the dataset containing the information of the cerebral stroke patients, and the dataset containing the information of the donors who donated for the paralyzed military veterans. As a result of the detailed analysis of each dataset, the existence of the imbalanced dataset problem was determined and different approaches included in the dataset level solution approaches were applied to solve the imbalanced dataset problem. After different approaches applied, performance metrics and confusion matrices of classification models were examined and interpreted. It has been seen that the classification models that are created and applied after the approaches to solving the imbalanced dataset problem have successful performance metrics.

Benzer Tezler

  1. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  2. Improved helicopter classification via deep learning and overlapped range-doppler maps

    Derin öğrenme ve örtüşen menzil-doppler görüntüleri ile geliştirilmiş helikopter sınıflandırması

    DENİZ CAN ACER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  3. Histopatolojik görüntülerin makine öğrenmesi yöntemleri ile analizi

    Analysis of histopathological images via machine learning methods

    ABDÜLKADİR ALBAYRAK

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  4. Üniversite öğrencilerinin uzaktan eğitime ilişkin sosyal kaygısının makine öğrenmesi ile tahmini

    Prediction of university students' social anxiety about distance education with machine learning

    ZEYNEB UYLAŞ AKSU

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. SEVİNÇ GÜLSEÇEN

  5. Visualization based analysis of gene networks using high dimensional model representation

    Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi

    PINAR GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA