Geri Dön

Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi

Examination of approaches affecting classification performance in imbalanced data sets

  1. Tez No: 873035
  2. Yazar: SALİHA DEMİRSÖZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HARUN YONAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Selçuk Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Dengesiz veriler, bir veya daha fazla sınıfın diğerlerinden çok daha fazla veya daha az temsil edilmesi durumunda ortaya çıkar. Sınıflandırma problemlerinde sınıf dağılımları birbirine yakın olmadığında model azınlık sınıfının tahmininde başarısız sonuçlar verebilmektedir. Örneklem artırma, azaltma ve hibrit yaklaşımlar gibi dengesiz veri probleminin çözümüne yönelik geliştirilmiş yaklaşımlar, makine öğrenmesinin kullanıldığı sınıflandırma problemlerinde algoritmaların performanslarını artırmaktadır. Bu çalışmada farklı dengesizlik oranlarına ve öznitelik sayısına sahip veriler kullanılarak veri dengeleme yaklaşımlarının sınıflandırma problemlerinde kullanılan makine öğrenmesi algoritmalarının performanslarına etkisi karşılaştırılmıştır. Sonuçlar, dengeleme yöntemlerinin sınıflandırma performansını büyük ölçüde etkilediğini göstermekte olup her veri seti ve algoritma kombinasyonu için en uygun dengeleme yönteminin değiştiğini ortaya koymaktadır. Bu nedenle, problem için en uygun dengeleme yönteminin seçilmesinde farklı yaklaşımların denenmesi ve birden fazla performans metriğinin birlikte değerlendirilmesi gerektiği sonucuna varılmıştır. Bu çalışma sağlık, finans, güvenlik gibi alanlarda dengesiz veri problemi ile karşılaşıldığında daha güvenilir ve genelleştirilebilir sonuçlar elde edebilmek için dengeleme yöntemlerinin kullanılabileceğini ve kritik konularda önemli katkılar sağlayabileceği öngörmektedir. Ayrıca kullanılan farklı makine öğrenmesi yöntemlerinde farklı dengeleme yaklaşımları ön plana çıkmış olup kullanılan algoritmaya göre seçilecek olan yaklaşımı belirlemede çalışmanın literatüre katkı sağlayabileceği öngörülmektedir.

Özet (Çeviri)

Imbalanced data occurs when one or more classes are represented much more or less than others. In classification problems, when class distributions are not close to each other, the model may give unsuccessful results in predicting the minority class. Improved approaches to solving the imbalanced data problem, such as oversampling, undersampling, and hybrid approaches, increase the performance of algorithms in classification problems in machine learning. In this study, the effects of data balancing approaches on the performance of machine learning algorithms used in classification problems were compared by using data with different imbalance rates and numbers of features. The results show that balancing methods greatly affect classification performance, revealing that the optimal balancing method varies for each dataset and algorithm combination. Therefore, it was concluded that different approaches should be tried and multiple performance metrics should be evaluated together in choosing the most appropriate balancing method for the problem. This study suggests that balancing methods can be used to obtain more reliable and generalizable results when faced with imbalanced data problems in areas such as health, finance, and security, and can make significant contributions to critical issues. In addition, different balancing approaches have come to the forefront in different machine learning methods used, and it is envisaged that the study can contribute to the literature in determining the approach to be chosen according to the algorithm used.

Benzer Tezler

  1. Image quality assesment and enhancement for robust face recognition

    Yüz tanıma için imgelerin kalite ölçümü ve iyileştirilmesi

    ONUR SERTKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. TAYFUN AKGÜL

  2. Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi

    Analyzing the performance of classification methods using generated and real datasets

    ÇİĞDEM KADAİFÇİ YANMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. EYLEM DENİZ HOWE

  3. Generalized multi-view data proliferator (gem-vip) for boosting classification

    Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi

    MUSTAFA ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ISLEM REKIK

  4. Train set complexity tunning for imbalance learning

    Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması

    MEHMET ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. MEHMET ALİ ERGÜN

  5. Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi

    Formation of a drug classification framework via data mining techniques

    AYTUN ONAY

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL