Gürültülü gözlemler durumunda dengesiz veride öğrenme için yeni bir yaklaşım
A novel aproach for learning in imbalanced data in the presence of noise
- Tez No: 611869
- Danışmanlar: PROF. DR. MEHMET ALİ CENGİZ, DR. ÖĞR. ÜYESİ EMRE DÜNDER
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 91
Özet
Sınıflama çalışmalarında kullanılan sınıflama yöntemlerinin çoğunda sınıf gözlem sayılarının dengeli olduğu varsayımı vardır. Bu gibi durumlarda kurulan modeller çok gözleme sahip sınıfa ağırlık vererek tahminde bulunmaktadırlar. Böyle durumlarda sınıflayıcılar az gözlem sayısına sahip gözlemleri göz ardı ettikleri için çoğunluk sınıftan yana yanlı tahminde bulunmaktadırlar. Bu sınıf dengesizliği problemi bulunan veri setlerinde kullanılması önerilen performans ölçütleri olduğu gibi, bu problemi çözmek için önerilmiş yöntemler mevcuttur. Bu yöntemlerden en sık kullanılanlarından birisi yeniden örnekleme yöntemleridir. Bu çalışmada yeniden örnekleme yöntemlerinden olan rastgele aşırı örnekleme (RAÖ) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemlerinin sorunları ele alınmış ve bu sorunları çözmeyi amaçlayan yeni bir yeniden örnekleme yöntemi önerilmiştir. Önerilen boosting ile SMOTE (B. SMOTE) yöntemi topluluk algoritmalarında kullanılan boosting prosedürünü kullanarak gürültü tespiti yapmakta ve bu gürültü bilgilerini kullanarak SMOTE algoritması içerisinde her bir gözlem için ayrı uygun komşu sayısı belirlemektedir. Çalışmanın uygulama kısmında simülasyon verisi üzerinde yöntemler karşılaştırılmış ve görsel olarak RAÖ, ve SMOTE'un sorunları gösterildiği gibi B. SMOTE yönteminin bu sorunları aştığı ve daha iyi performans gösterdiği görülmüştür. Ayrıca 16 farklı veri seti ve 9 farklı sınıflayıcı üzerinden yapılan sınıflama modelerinin karşılaştırması sonucunda MKK ve F_1 performansları ve bu performansların sıra numaraları hesaplanmıştır. Sonuç olarak önerilen yöntemin her bir sınıflayıcıda ve tüm genel sonuçların ortalamasında diğer mevcut yeniden örnekleme yöntemlerinden daha iyi olduğu gösterilmiştir.
Özet (Çeviri)
Most of the classification methods used in the classification studies have the asumption that the numbers of class observations are balanced. In such cases, models are predicted by giving biased weight to the the class with more observations. Therefore, the classifiers ignore the class with smaller number of observations and the majority class makes biased predictions. In data sets with class imbalance problem, there are suggested performance measures to be used as well as proposed methods to solve this problem. One of the most commonly used methods is resampling method. In this study, the problems of random oversampling (ROS) and synthetic minority oversampling technique (SMOTE), which are some of the oversampling methods, are discussed and a new resampling method is proposed to solve these problems. The proposed SMOTE with boosting (B. SMOTE) method makes noise detection using the boosting procedure in ensemble algorithms and uses this information to determine the appropriate number of neighbors for each observation within SMOTE algorithm. In the application section of the study, methods on both simulation data are compared and the problems of ROS and SMOTE are shown visually. Also, it is seen that B. SMOTE method overcame these problems and performed better. In addition, MCC and F_1 performances and ranks of these performances are calculated as a result of classification models made over 16 different data sets and 9 different classifiers. It is shown that the proposed method is better than the other resampling methods for each classifier and also in general.
Benzer Tezler
- Generalized multi-view data proliferator (gem-vip) for boosting classification
Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi
MUSTAFA ÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ISLEM REKIK
- Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi
Analyzing the performance of classification methods using generated and real datasets
ÇİĞDEM KADAİFÇİ YANMAZ
Yüksek Lisans
Türkçe
2024
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE
- Yüksek boyut düşük örneklem genişliği durumunda sınıflama algoritmalarının performanslarının karşılaştırılması
A comparison of performances of classification algorithms in high dimension low sample size settings
ÜLGER AYDOĞAN CULHA
Doktora
Türkçe
2015
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. ERDEM KARABULUT
- Bilyeli rulman hasarlarının titreşim analizi ile tespiti ve gemi makinelerinde kestirimci bakım uygulaması
Detection of ball bearings defects by vibration analysis and implementation of predictive maintenance on ship's machinery
MURAT ÇİMEN
Yüksek Lisans
Türkçe
2015
Gemi Mühendisliğiİstanbul Teknik ÜniversitesiGemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN AZMİ ÖZSOYSAL