Dengesiz veri kümelerinde sınıflandırma problemleri için bulanık tip-2 tabanlı yeni bir algoritma
A new fuzzy type-2 based algorithm for classification problems in imbalanced datasets
- Tez No: 855158
- Danışmanlar: PROF. DR. EMEL KIZILKAYA AYDOĞAN
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Makine öğrenmesi, Sınıflandırma, Dengesiz sınıf öğrenme, Bulanık mantık, Ses işleme, Uyku apnesi, Machine learning, Classification, Class imbalance learning, Fuzzy logic, Audio processing, Sleep apnea
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 85
Özet
Verilerin toplanması, analiz edilmesi, karar verme süreçlerinde kullanılması için sürekli geliştirilen yöntemlere sahip veri bilimi, teknolojinin gelişiminin çok önemli bir parçasını oluşturur. Sınıflandırma, veri bilimi alanlarından olan makine öğreniminde belirli bir öğe grubunu hedeflenen gruplara göre ayırmak için kullanılan yöntemlerden biridir. Sınıflandırma için kullanılan makine öğrenimi algoritmalarının çoğu, her sınıf için eşit sayıda örnek varsayımı ile tasarlanır. Ancak veri setinde bir sınıfa ait veri sayısının diğer sınıfa ait veri sayısından çok farklı olması durumunda dengesiz veri problemi ortaya çıkar. Bu durum özellikle veri sayısı az olan azınlık sınıfı için kötü tahmin performansına sahip modellerle sonuçlanır. Bu önemli bir problemdir, çünkü tipik olarak azınlık sınıfı daha önemlidir ve bu nedenle problem azınlık sınıfı için sınıflandırma hatalarına çoğunluk sınıfından daha duyarlı olmalıdır. Dengesiz veri problemi ile birlikte gerçek dünya verilerinde karşılaşılan diğer sorunlar ise gürültü ve aykırı değerlere sahip veri kümeleridir. Standart makine öğrenmesi teknikleri dengesiz veri, gürültü ve aykırı değerlere sahip problemlerde başarısız sonuçlar vermektedir. Bu çalışma ile standart makine öğrenmesi tekniklerinden olan destek vektör makinesinin dengesiz veri, gürültü ve aykırı değer problemlerine sahip veri setleri için duyarlı hale getirilmesi için FSVMIT2 olarak adlandırılan yeni algoritma geliştirilmiştir. FSVMIT2, belirsizliği daha iyi tanımlayabilmek için bulanık mantık yaklaşımını kullanmaktadır. FSVMIT2 modelinin etkinliği bu çalışmada 25 dengesiz veri seti üzerinde yapılan deneylerle kanıtlanmıştır. FSVMIT2 modelinin performansı, bulanık destek vektör makinesinin performansıyla karşılaştırılmıştır. Sonuçta dengesiz veri kümelerinin sınıflandırma zorluklarının çözümü için FSVMIT2 modeli bulanık dengesiz sınıf öğrenme yöntemlerinden daha iyi performans göstermiştir. Geliştirilen algoritma daha sonra ses işleme yöntemi olarak bu çalışmada kullanılmıştır. Söz konusu aşamada, uyku apnesi hastalığı ön teşhisinde kullanılmak üzere gerçek ses verileri toplanmış ve FSVMIT2 modeli ile sınıflandırma yapılarak literatüre sunulmuştur.
Özet (Çeviri)
Data science is a very important part of the development of technology, and has constantly developed methods for collecting, analyzing, and using data in decision-making processes. Classification is one of the methods used in machine learning, which is one of the data science methods, to separate a specific group of items into targeted groups. Most machine learning algorithms used for classification are designed with the assumption of an equal number of samples for each class. However, if the number of data belonging to one class in the data set is very different from the number of data belonging to the other class imbalanced data problem occurs. This results in models with poor prediction performance, especially for the minority class with a small number of data. This is an important problem because typically the minority class is more important, and therefore the problem should be more sensitive to classification errors for the minority class than for the majority class. Along with the imbalanced data problem, other problems encountered in real-world data are noise, and data sets with outliers. Standard machine learning techniques give unsuccessful results in problems with imbalanced data, noise and outliers. With this study, a new algorithm called FSVMIT2 has been developed to make support vector machines, one of the standard machine learning techniques, sensitive to data sets with the data sets which includes imbalanced data, noise and outliers. FSVMIT2 uses the fuzzy logic approach to better describe uncertainty. In this study, the effectiveness of the FSVMIT2 model has been proven through experiments on 25 imbalanced data sets. The performance of the FSVMIT2 model is compared with that of the fuzzy support vector machine for class imbalance learning methods. As a result, the FSVMIT2 model outperformed the fuzzy support vector machine for class imbalance learning methods and other common techniques for solving classification challenges of imbalanced datasets. The effectiveness of the developed algorithm was later used in this study as a audio signal processing method. At this stage, real sound data were collected to be used in the pre-diagnosis of sleep apnea, and classification was made with the FSVMIT2 model, and presented to the literature.
Benzer Tezler
- New proposed methods for synthetic minority over-sampling technique
Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler
HAKAN KORUL
Yüksek Lisans
İngilizce
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- SVM classification for imbalanced datasets with multi objective optimization framework
Dengesiz veri kümelerinde çok ölçütlü optimizasyon çerçevesinde SVM ile sınıflandırma
AYŞEGÜL ÖZTÜRK
Yüksek Lisans
İngilizce
2009
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SERPİL SAYIN
- Dengesiz metin sınıflandırma için yeni yaklaşımlar
New approaches to imbalanced text classification
HANDE TİRYAKİ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: Ainus
AiNet algorithm-based undersampling method for imbalanced classification problems: Ainus
KÜBRANUR GÜMÜŞLÜ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE MERVE ACILAR
- Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ