Makine öğrenmesinde sınıf dengesizliği için belirsizlik yönlendirmeli yeniden örnekleme
Uncertainty guided resampling for class imbalance in machine learning
- Tez No: 879758
- Danışmanlar: PROF. DR. MEHMET ALİ CENGİZ
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 135
Özet
Makine öğrenmede sınıflama yöntemlerinin çoğu, sınıflara ait örnek sayılarının aynı olduğunu varsaymaktadır. Farklı örnek sayıları ile model kurulduğunda, sınıflama modelleri veri sayısı fazla olan sınıftan yana yanlılık göstermektedir. Böyle durumlarda kullanılan yöntemlerden birisi yeniden örneklemedir. Yeniden örnekleme ile veri üretilerek veya veri silinerek sınıflar arası denge sağlanır. Bu esnada seçilen örneklerin seçimi genellikle rastgeledir. Rastgele örnek seçimi yerine, bilgilendirici örneklerin seçilmesi daha az veri üretimi ile daha bilgilendirici veri setleri oluşturmayı sağlar. Rastgele örnek seçimi, gürültü örnekleri bölgesinde veri üretimine de yol açar. Ayrıca gürültü bulunmayan veri setinde yeni veri üretirken sınıflar arası kesişim bölgesinde veri üreterek gürültü problemine yol açabilmektedir. Bu çalışmada, aktif öğrenme kullanılarak, bilgilendirici örneklerin seçildiği belirsizlik yönlendirmeli aşırı örnekleme (UGO) yöntemi önerilmiştir. Aktif öğrenme, bilgilendirici örnekleri seçerek insan yardımıyla veri seti oluşturmak için kullanılan bir yaklaşımdır. UGO, modifiye edilmiş belirsizlik öğrenmesi ile seçilen örnekler üzerinden insana gerek olmadan sentetik veri üretimi yoluyla sınıf dengesizliğini ortadan kaldırır. İlk olarak veri üretimi öncesinde gürültü örneklerini tespit ederek belirsizlik tipinin yüksek derecede aleatorik olduğu bölgelerde veri üretilmediğinden emin olur. Epistemik belirsizliğin yüksek olduğu verilere odaklanarak bilgilendirici örnekler üretilmesini sağlar. Sınıflar arasındaki örnek sayısı farklarına bakarak dengesizliği kontrol etmek yerine, epistemik belirsizlik ortalamasını karşılaştırır. Daha sonra, veri üretim aşamasında, yeni üretilen verileri de gürültü kontrolünden geçirir ve gürültü verilerinin yerini güvenli bölgelere taşır. Sınıf epistemik belirsizlik ortalamaları arasında anlamlı fark kalmayana kadar iteratif biçimde veri üretir. UGO, gürültü üretimine neden olmaz, otomatik biçimde üretilecek veri sayısını kendi belirler ve sınıf dengesizliğini ortadan kaldırır. Yöntemin diğer yeniden örnekleme yöntemleri ile karşılaştırmalı performansları 2 simülasyon, 74 iki sınıflı ve 8 ikiden fazla sınıflı veri setinde karşılaştırılmıştır. Dengesiz doğruluk ölçütüne (IAM) göre, simülasyon ve çok sınıflı durumlarda istatistiksel olarak anlamlı başarı göstermiştir. İkiden fazla sınıflı veri setlerinde ise, sıra ortalaması daha iyi olsa da istatistiksel olarak anlamlı bir başarı göstermemiştir.
Özet (Çeviri)
Most classification methods in machine learning assume that the number of examples of classes is the same. When a model is built with different numbers of samples, classification models show bias in favor of the class with a larger number of data. One of the methods used in such cases is resampling. Balance between classes is achieved by synthetic data generation or deleting data. The selection of samples chosen while doing this is usually random. Choosing informative samples instead of random sample selection allows creating more informative data sets with less data production. Random sample selection also leads to data generation in the region of noise samples. In addition, while producing new data in a data set that does not contain noise, it may cause a noise problem by producing data in the intersection area between classes. In this study, uncertainty guided oversampling (UGO) method is proposed, where informative samples are selected using active learning. Active learning is an approach used to create a dataset with human assistance by selecting informative examples. UGO eliminates class imbalance by generating synthetic data from selected examples with modified active learning, without the need for humans. First, it detects noise samples before data generation and makes certain that no data is generated in regions where the uncertainty type is highly aleatoric. Instead, it allows generating informative examples by focusing on data with high epistemic uncertainty. Instead of checking for imbalance by looking at differences in the number of examples between classes, it compares the average epistemic uncertainty. Then, during the data generating phase, it also checks the newly produced data for noise and relocates the noise data to safe regions. It iteratively derives data until there is no significant difference between class epistemic uncertainty means. As a result, UGO does not cause noise generation, automatically determines the number of data to be generated and eliminates class imbalance. The comparative performances of the method with other resampling methods were compared on 2 simulation, 74 two-class and 8 more than two-class data sets. According to the imbalanced accuracy measure (IAM) criterion, UGO showed statistically significant success in simulation and multi-class situations. In data sets with more than two classes, although the rank average was better, it did not show a statistically significant success.
Benzer Tezler
- A comparative study for football analytics with data mining and artificial intelligence techniques
Veri madenciliği ve yapay zeka teknikleri ile karşılaştırmalı futbol analitiği
MUSTAFA AADEL MASHJAL AL-ASADI
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAKİR TAŞDEMİR
- Lifelong learning for auditory scene analysis
İşitsel sahne analizi için hayat boyu öğrenme
BARIŞ BAYRAM
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
- Evrişimsel sinir ağları kullanarak diyabetik retinopati hastalığının tespiti
Detection of diabetic retinopathy disease using convolutional neural network
KEMAL AĞCA
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSivas Cumhuriyet ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HİDAYET TAKCI
- Investigation of deep learning approaches for biomedical data classification
Biyomedikal veri sınıflandırmasında derin öğrenme yaklaşımlarının araştırılması
ESRA MAHSERECİ KARABULUT
Doktora
İngilizce
2016
Elektrik ve Elektronik MühendisliğiÇukurova ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TURGAY İBRİKÇİ
- Bilgisayarlı dinamik postürografi ve fonksiyonel denge testleri ile makine öğrenmesinde yaşlı bireylerin düşme riskinin tahmin edilmesi
Predicting the fall risk of elderly individuals in machine learning with computerized dynamic posturography and functional balance tests
EMRE SÖYLEMEZ
Doktora
Türkçe
2024
Kulak Burun ve BoğazAnkara ÜniversitesiKulak Burun Boğaz Hastalıkları Ana Bilim Dalı
PROF. DR. SUNA TOKGÖZ YILMAZ