Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi
Examination of approaches affecting classification performance in imbalanced data sets
- Tez No: 873035
- Danışmanlar: DR. ÖĞR. ÜYESİ HARUN YONAR
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Dengesiz veriler, bir veya daha fazla sınıfın diğerlerinden çok daha fazla veya daha az temsil edilmesi durumunda ortaya çıkar. Sınıflandırma problemlerinde sınıf dağılımları birbirine yakın olmadığında model azınlık sınıfının tahmininde başarısız sonuçlar verebilmektedir. Örneklem artırma, azaltma ve hibrit yaklaşımlar gibi dengesiz veri probleminin çözümüne yönelik geliştirilmiş yaklaşımlar, makine öğrenmesinin kullanıldığı sınıflandırma problemlerinde algoritmaların performanslarını artırmaktadır. Bu çalışmada farklı dengesizlik oranlarına ve öznitelik sayısına sahip veriler kullanılarak veri dengeleme yaklaşımlarının sınıflandırma problemlerinde kullanılan makine öğrenmesi algoritmalarının performanslarına etkisi karşılaştırılmıştır. Sonuçlar, dengeleme yöntemlerinin sınıflandırma performansını büyük ölçüde etkilediğini göstermekte olup her veri seti ve algoritma kombinasyonu için en uygun dengeleme yönteminin değiştiğini ortaya koymaktadır. Bu nedenle, problem için en uygun dengeleme yönteminin seçilmesinde farklı yaklaşımların denenmesi ve birden fazla performans metriğinin birlikte değerlendirilmesi gerektiği sonucuna varılmıştır. Bu çalışma sağlık, finans, güvenlik gibi alanlarda dengesiz veri problemi ile karşılaşıldığında daha güvenilir ve genelleştirilebilir sonuçlar elde edebilmek için dengeleme yöntemlerinin kullanılabileceğini ve kritik konularda önemli katkılar sağlayabileceği öngörmektedir. Ayrıca kullanılan farklı makine öğrenmesi yöntemlerinde farklı dengeleme yaklaşımları ön plana çıkmış olup kullanılan algoritmaya göre seçilecek olan yaklaşımı belirlemede çalışmanın literatüre katkı sağlayabileceği öngörülmektedir.
Özet (Çeviri)
Imbalanced data occurs when one or more classes are represented much more or less than others. In classification problems, when class distributions are not close to each other, the model may give unsuccessful results in predicting the minority class. Improved approaches to solving the imbalanced data problem, such as oversampling, undersampling, and hybrid approaches, increase the performance of algorithms in classification problems in machine learning. In this study, the effects of data balancing approaches on the performance of machine learning algorithms used in classification problems were compared by using data with different imbalance rates and numbers of features. The results show that balancing methods greatly affect classification performance, revealing that the optimal balancing method varies for each dataset and algorithm combination. Therefore, it was concluded that different approaches should be tried and multiple performance metrics should be evaluated together in choosing the most appropriate balancing method for the problem. This study suggests that balancing methods can be used to obtain more reliable and generalizable results when faced with imbalanced data problems in areas such as health, finance, and security, and can make significant contributions to critical issues. In addition, different balancing approaches have come to the forefront in different machine learning methods used, and it is envisaged that the study can contribute to the literature in determining the approach to be chosen according to the algorithm used.
Benzer Tezler
- Image quality assesment and enhancement for robust face recognition
Yüz tanıma için imgelerin kalite ölçümü ve iyileştirilmesi
ONUR SERTKAYA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAYFUN AKGÜL
- Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi
Analyzing the performance of classification methods using generated and real datasets
ÇİĞDEM KADAİFÇİ YANMAZ
Yüksek Lisans
Türkçe
2024
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Generalized multi-view data proliferator (gem-vip) for boosting classification
Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi
MUSTAFA ÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ISLEM REKIK
- Train set complexity tunning for imbalance learning
Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması
MEHMET ULAŞ
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. MEHMET ALİ ERGÜN
- Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi
Formation of a drug classification framework via data mining techniques
AYTUN ONAY
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN ABUL