Geri Dön

Gürültülü gözlemler durumunda dengesiz veride öğrenme için yeni bir yaklaşım

A novel aproach for learning in imbalanced data in the presence of noise

  1. Tez No: 611869
  2. Yazar: FATİH SAĞLAM
  3. Danışmanlar: PROF. DR. MEHMET ALİ CENGİZ, DR. ÖĞR. ÜYESİ EMRE DÜNDER
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Sınıflama çalışmalarında kullanılan sınıflama yöntemlerinin çoğunda sınıf gözlem sayılarının dengeli olduğu varsayımı vardır. Bu gibi durumlarda kurulan modeller çok gözleme sahip sınıfa ağırlık vererek tahminde bulunmaktadırlar. Böyle durumlarda sınıflayıcılar az gözlem sayısına sahip gözlemleri göz ardı ettikleri için çoğunluk sınıftan yana yanlı tahminde bulunmaktadırlar. Bu sınıf dengesizliği problemi bulunan veri setlerinde kullanılması önerilen performans ölçütleri olduğu gibi, bu problemi çözmek için önerilmiş yöntemler mevcuttur. Bu yöntemlerden en sık kullanılanlarından birisi yeniden örnekleme yöntemleridir. Bu çalışmada yeniden örnekleme yöntemlerinden olan rastgele aşırı örnekleme (RAÖ) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemlerinin sorunları ele alınmış ve bu sorunları çözmeyi amaçlayan yeni bir yeniden örnekleme yöntemi önerilmiştir. Önerilen boosting ile SMOTE (B. SMOTE) yöntemi topluluk algoritmalarında kullanılan boosting prosedürünü kullanarak gürültü tespiti yapmakta ve bu gürültü bilgilerini kullanarak SMOTE algoritması içerisinde her bir gözlem için ayrı uygun komşu sayısı belirlemektedir. Çalışmanın uygulama kısmında simülasyon verisi üzerinde yöntemler karşılaştırılmış ve görsel olarak RAÖ, ve SMOTE'un sorunları gösterildiği gibi B. SMOTE yönteminin bu sorunları aştığı ve daha iyi performans gösterdiği görülmüştür. Ayrıca 16 farklı veri seti ve 9 farklı sınıflayıcı üzerinden yapılan sınıflama modelerinin karşılaştırması sonucunda MKK ve F_1 performansları ve bu performansların sıra numaraları hesaplanmıştır. Sonuç olarak önerilen yöntemin her bir sınıflayıcıda ve tüm genel sonuçların ortalamasında diğer mevcut yeniden örnekleme yöntemlerinden daha iyi olduğu gösterilmiştir.

Özet (Çeviri)

Most of the classification methods used in the classification studies have the asumption that the numbers of class observations are balanced. In such cases, models are predicted by giving biased weight to the the class with more observations. Therefore, the classifiers ignore the class with smaller number of observations and the majority class makes biased predictions. In data sets with class imbalance problem, there are suggested performance measures to be used as well as proposed methods to solve this problem. One of the most commonly used methods is resampling method. In this study, the problems of random oversampling (ROS) and synthetic minority oversampling technique (SMOTE), which are some of the oversampling methods, are discussed and a new resampling method is proposed to solve these problems. The proposed SMOTE with boosting (B. SMOTE) method makes noise detection using the boosting procedure in ensemble algorithms and uses this information to determine the appropriate number of neighbors for each observation within SMOTE algorithm. In the application section of the study, methods on both simulation data are compared and the problems of ROS and SMOTE are shown visually. Also, it is seen that B. SMOTE method overcame these problems and performed better. In addition, MCC and F_1 performances and ranks of these performances are calculated as a result of classification models made over 16 different data sets and 9 different classifiers. It is shown that the proposed method is better than the other resampling methods for each classifier and also in general.

Benzer Tezler

  1. Generalized multi-view data proliferator (gem-vip) for boosting classification

    Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi

    MUSTAFA ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ISLEM REKIK

  2. Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi

    Analyzing the performance of classification methods using generated and real datasets

    ÇİĞDEM KADAİFÇİ YANMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. EYLEM DENİZ HOWE

  3. Yeni Cami'nin akustik açıdan performans değerlendirmesi

    Evaluation of the acoustical performance of the New Mosque

    EVREN YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SEVTAP YILMAZ DEMİRKALE

  4. Yüksek boyut düşük örneklem genişliği durumunda sınıflama algoritmalarının performanslarının karşılaştırılması

    A comparison of performances of classification algorithms in high dimension low sample size settings

    ÜLGER AYDOĞAN CULHA

    Doktora

    Türkçe

    Türkçe

    2015

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. ERDEM KARABULUT

  5. Bilyeli rulman hasarlarının titreşim analizi ile tespiti ve gemi makinelerinde kestirimci bakım uygulaması

    Detection of ball bearings defects by vibration analysis and implementation of predictive maintenance on ship's machinery

    MURAT ÇİMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Gemi Mühendisliğiİstanbul Teknik Üniversitesi

    Gemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN AZMİ ÖZSOYSAL