New proposed methods for synthetic minority over-sampling technique

Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler

PDF İndir

Tez No: 895499
Yazar: HAKAN KORUL
Danışmanlar: DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
Tez Türü: Yüksek Lisans
Konular: Bilim ve Teknoloji, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
Bilim Dalı: Büyük Veri ve İş Analitiği Bilim Dalı
Sayfa Sayısı: 53

Özet

Makine öğrenimi (ML), yapay zeka (AI) veri ve algoritmaların kullanılarak insan öğrenme süreçlerinin taklit edilmesidir. Makine öğrenme algoritmaları, veriyle eğitilir; bu veriler etiketli veya etiketsiz olabilir ve algoritma, her bir veri değişkeni ve etiketi göz önünde bulundurarak verideki desenleri belirlemeyi hedefler. Eğitilen algoritmalar, gelecekteki henüz bilinmeyen veri etiketlerini önceden öğrendikleri desenlerle tahmin ederler. Bu algoritmalarda hata fonksiyonu bulunur ve algoritma bu hata üzerinden veri seti üzerindeki başarısını değerlendirir; performansı iyileştirmek için ise daha önce elde edilen hata fonksiyonundan daha düşük bir hata değeri elde etmeye çalışır. ML algoritmalarının geniş kullanımı ve farklı alanlarda literatürdeki artan önemi, birçok endüstride birçok zorlu problemi çözmeye yönelik makine öğrenimi uygulamalarının artmasına neden olmuştur. Bu problemler genellikle denetimli ve denetimsiz öğrenme olmak üzere iki ana kategoriye ayrılır. Veri etiketlerinin bilindiği denetimli öğrenme, regresyon ve sınıflandırma olarak daha da sınıflandırılabilir. Regresyon algoritmaları, stok fiyatları, ev fiyatları ve hava durumu gibi tahmin problemleri için kullanılırken, sınıflandırma algoritmaları müşteri ayrılma tahmini, e- posta spam tespiti ve görüntü tanıma gibi sınıflandırma görevleri için kullanılır. Etiketlerin bilinmediği problemler, denetimsiz öğrenme altında incelenir ve genellikle müşteri segmentasyonu gibi kümeleme problemlerini içerir. Makinelerin doğru bir şekilde eğitilmesi ve yüksek performans sağlaması, kullanılan veri kalitesine büyük ölçüde bağlıdır. Makine öğrenimi için kullanılan verilerin ideal olarak temiz, dengeli ve gerçek dünya koşullarını temsil edici olması gerekir. Ayrıca, veri setinin boyutu da önemlidir; genellikle daha büyük veri setleri daha iyi sonuçlar verir. Bu veri özelliklerinin yanı sıra, sınıflandırma problemleri için dengeli sınıflara sahip olmak, sınıflandırma makine öğrenme algoritmaları için kritik öneme sahiptir. Sınıflandırma problemleri için dengeli sınıf dağılımına sahip olmak, makine öğrenme algoritmaları için önemlidir. Sınıf dağılımı dengesiz ise, bu durum dengesiz bir veri seti olarak bilinir. Dengeli sınıflara sahip bir problemde model eğitmek, dengesiz sınıflara sahip bir problemde model eğitmekten farklılık gösterir ve farklı performans sonuçlarına neden olabilir. Örneğin, dengeli sınıflara sahip bir problemde, 10 müşteriden 4'ü ayrılıyorsa, neredeyse %50 oranında rasgele başarılı tahminler yapılabilir. Ancak, eğer karşılaşılan problemde 100 müşteriden sadece 1'i ayrılıyorsa ve ayrılan müşteriyi tahmin etmek istiyorsanız, rasgele tahmin yetersiz kalır ve makine öğrenme modelleri için son derece zorlayıcı bir problem oluşur. Bu sorunu çözmek için çeşitli yöntemler geliştirilmiştir. Yukarıda bahsedilen örnekte, 99 müşterinin ayrılmadığı ve 1 müşterinin ayrıldığı durumlar genellikle dengesiz sınıf problemi olarak adlandırılır ve bu tür veri setleri çoğunluk ve azınlık sınıflarını içerir. Bu problemi için geliştirilen farklı yöntemler genellikle azınlık sınıfı örneklerinin sayısını artırmayı, çoğunluk sınıfı örneklerinin sayısını azaltmayı veya her iki yöntemin kombinasyonunu kullanmayı amaçlar. Bu yöntemleri doğrudan karşılaştırmak zor olabilir, çünkü bu yöntemler farklı veri kümelerinde farklı performanslar gösterebilir. Ancak, veri setinin belirli özellikleri, uygun yöntemin seçimini kolaylaştırabilir. Örneğin, veri kümesi çok büyük değilse, undersampling uygun olmayabilir çünkü çoğunluk sınıfı örneklerini ortadan kaldırarak önemli ölçüde daha küçük bir veri kümesine neden olur. Bu durumlarda, genel veri kümesi boyutunu artıran oversampling yöntemleri tercih edilmelidir. Oversampling yöntemleri daha da genişletilebilir ve rasgele oversampling ve SMOTE olmak üzere ikiye ayrılabilir. İki yöntem arasındaki en önemli fark, sentetik veri üretme şekillerinden kaynaklanmaktadır. Rasgele oversampling, veri kümesindeki mevcut azınlık sınıfı örneklerini birebir kopyalar; SMOTE ise farklı teknikler kullanarak mevcut azınlık sınıfı örneklerine yakın sentetik veri noktaları oluşturur. Rasgele oversampling, makine öğrenme algoritmasına yeni örnekler tanıtmadığı ve aşırı öğrenmeye yol açabileceği için genellikle SMOTE yöntemleri rastgele oversampling yönteminden daha iyi performans gösterir. SMOTE yöntemiyle veri üretme aşamasında öncelikle k adet yakın komşunun sayısı belirlenir. Sentetik veri üretmek için iki örnek seçilir: ilki azınlık örneği kendisi, ikincisi ise k adet en yakın komşuları arasından rasgele seçilen komşu azınlık sınıfı örneğidir. Daha sonra, komşu örneği ile azınlık örneği arasındaki fark hesaplanır. Ardından, bu fark 0 ile 1 arasında rasgele bir sayıyla çarpılır ve azınlık örneğine geri eklenir. Bu süreç, yeni üretilen sentetik verinin azınlık örneği ile komşusunun arasında bulunmasını sağlar. SMOTE yönteminin literatürde ortaya çıkmasının ardından, bu yöntemi farklı bakış açılarıyla geliştirmeye yönelik çabalar yoğunlaşmıştır. Borderline SMOTE ve K- Means SMOTE, bu bağlamda önerilen yeni yöntemlerden sadece birkaçıdır. Borderline SMOTE yönteminde, azınlık ve çoğunluk sınıfları arasında bir sınır tanımlanır ve sentetik veri oluşturma işlemi yalnızca bu sınırlarda bulunan azınlık örneklerine odaklanır ve bu sınır üzerinde yer almayan azınlık sınıfına ait örneklerden ekstra sentetik veri üretiminin öğrenmeye bir katkısı olmayacağı belirtilir. K-Means SMOTE yönteminde ise, eğitim seti k adet kümeye ayrılır ve ardından hangi kümelerin oversampling için kullanılacağına karar verilir. Bu karar aşamasında, cluster içerisindeki azınlık ve çoğunluk sınıfı oranları dikkate alınır. Bu kararların ardından bu kümeler içinde bağımsız şekilde ve ağırlıklı bir biçimde SMOTE adımları uygulanır. Bu çalışmada, daha başarılı sonuçlar elde etmek için üç farklı yeni SMOTE yöntemi geliştirilmiştir. İlk yöntem olan Genetik SMOTE, genetik algoritmalarda sıkça kullanılan çaprazlama mantığına dayanarak değişkenler arasındaki değişime odaklanır. Bu yöntemde, öncelikle 1 ile veri kümesindeki örneklerin değişken uzunluğu arasında rastgele sayılar belirlenir. Bu rastgele sayılar, hangi değişkenlerin değiştirileceğinin indeksini temsil eder. Sentetik veri üretiminde, önce örnek kopyalanır, sonra rastgele seçilen indeksteki değişkenler, ilgili örneğin seçilen komşusundaki değişkenlerle güncellenir. Böylece, verideki örneklerle aynı uzunlukta sentetik veri üretilmiş olur. Bu yöntemde, literatürdeki diğer SMOTE yöntemlerinden farklı olarak, yeni üretilecek sentetik verinin, örnek ve komşusu arasında olacak şekilde yeni bir değişken değeri üretmeyerek, veride bulunan mevcut değişkenleri kullanarak sentetik veri üretilir. İkinci yöntem olan Dual Borderline SMOTE, Borderline SMOTE yönteminden esinlenmiştir. Bu yöntemin Borderline SMOTE yönteminden önemli bir farkı, Borderline SMOTE ile sentetik veri üretiminde azınlık örneğinin sınırda bulunması yeterlidir. Azınlık örneğinin komşularının da tanımlanan sınırlarda olup olmadığını göz önünde bulundurmamasıdır. Ancak bu yeni geliştirilen yöntemde, hem örnek hem de komşusunun yeni tanımlanan sınırlar üzerinde olması gerekmektedir. Ayrıca diğer bir fark ise, Borderline SMOTE için sınır tanımlamasında, azınlık örneğinin toplam komşu sayısı içerisinde azınlık komşu örneklerinin oranının 0.5 ile 1 arasında olması gerekliyken, yeni yöntemde sınır tanımı için bu oran 0 ve 1 arası şeklinde düzenlenmiştir. Burada bu oran 0 ise, azınlık örneğinin toplam k adet komşusu içerisinde azınlık örneği bulunmadığını ve bu örnekten üretilecek sentetik veri üretiminin öğrenmeyi yanıltacağı düşünülürken, bu oranın 1 olması ise bütün komşuların azınlık sınıfına ait olduğunu gösterir ve zaten yoğun bir azınlık bölgesinden tekrardan yeni bir sentetik veri üretmenin öğrenme için faydalı olmadığı düşünülmüştür. Son geliştirilen yöntem ise, ilk iki yöntemin beraber uygulandığı Genetic Dual Borderline SMOTE' tur. Bu yöntem, sentetik veri üretmek için gereken örnek ve komşu seçimi için Dual Borderline SMOTE kurallarını uygular. Yani seçilen örnek ve komşusunun, tanımlanan sınırlar üzerinde olması gerekmektedir. Seçilen iki örneğe dayanarak sentetik veri oluşturulurken, Genetik SMOTE adımlarında olduğu gibi yeni bir değişken üretmek yerine, genetik algoritmalarında kullanılan örnek ve komşusu arasında değişken değişimine odaklanır. Son bölümde, geliştirilen üç yöntemin diğer mevcut üç yöntemle karşılaştırılması için 8 veri seti ve 4 farklı makine öğrenme algoritması kullanıldı. Her veri seti ve algoritma için toplamda 6 farklı SMOTE yöntemi performans açısından değerlendirildi. Performans karşılaştırması sırasında, her veri seti için makine öğrenme algoritmaları ve SMOTE yöntemlerinin çeşitli parametre kombinasyonları test edildi ve her veri seti, model ve SMOTE yöntemi için en iyi sonuçları sağlayan parametreler seçildi. Böylece SMOTE yöntemlerinin başarısı, en iyi F1 skorunu sağlayan parametreler kullanılarak karşılaştırıldı. Performans ölçümünde, dengesiz veri kümeleri için uygun olmayan doğruluk gibi metrikler yerine dengesiz veri setinin performansı için daha uygun bir metrik olan azınlık sınıfının F1 skoru metriği tercih edildi. Daha güvenilir bir başarı metriği oluşturmak için 5 kat çapraz doğrulama skoru kullanılarak F1 skoru hesaplandı. Her bir SMOTE yöntemi için toplamda 32 F1 skoru (8 veri seti, 4 makine öğrenme algoritması) elde edildi ve SMOTE yöntemlerinin F1 skoru, figürler ile genel veya model bazlı şeklinde grafiksel olarak gösterildi. Ayrıca, her veri seti ve makine öğrenme algoritması için SMOTE yöntemleri 1 ile 6 arasında başarısına göre sıralandı ve bu sıralamalar yine grafikler ile karşılaştırıldı. Yeni geliştirilen yöntemlerin mevcut yöntemleri geride bıraktığı gözlemlenmiştir. Model tabanlı analizlerde, doğrusal modellerde SMOTE yöntemlerinin performansında belirgin bir fark olmasa da, özellikle ensemble yöntemlerinde, Genetik Dual Borderline SMOTE yöntemi diğerlerinden belirgin şekilde ayrışmaktadır.

Özet (Çeviri)

Machine Learning (ML), artificial intelligence (AI), aims to mimic human learning processes using data and algorithms. Machine learning algorithms are trained on data, which can be labeled or unlabeled, with the aim of finding patterns by considering each data variable and its corresponding label. Algorithms trained on data predict future data labels based on patterns learned from previously observed data variables. In machine learning algorithms, there is an error function that evaluates the algorithm's performance on the dataset, and to improve performance, the algorithm tries to find the one with a lower error value than the error function obtained previously. The proliferation of ML algorithms and their utilization across various fields in the literature has led to the resolution of many challenging problems through machine learning. These problems can generally be categorized as supervised and unsupervised learning. Supervised learning, where data labels are known, can be further classified into regression and classification. Regression algorithms are used for problems such as predicting stock prices, predicting house prices, and forecasting weather conditions, while classification algorithms are employed for tasks like customer churn prediction, email spam detection, and image recognition. Problems where labels are not available in the dataset fall under unsupervised learning, which typically includes tasks like customer segmentation. Ensuring machines are trained properly and achieve high performance relies heavily on the quality of the data. The data used for machine learning ideally should be clean, balanced, and representative of real-world conditions. Additionally, the size of the dataset is crucial, as larger datasets usually lead to better results. Alongside these data characteristics, having balanced classes in classification problems is vital for classification machine learning algorithms. When it comes to classification problems, having balanced class distributions in the data is crucial for classification machine learning algorithms. If the class distribution is imbalanced, it leads to what is known as an imbalanced dataset. Training a machine learning model on a problem with balanced classes as opposed to imbalanced classes can result in noticeable differences in performance. For instance, in a problem with balanced classes, where 4 out of 10 customers churn, meaning almost a 50% probability, even a model with random guessing can make successful predictions. However, if the problem is such that only 1 out of 100 customers churn, random guessing becomes insufficient, posing an extremely challenging problem for machine learning models. To address this issue, various methods have been developed. In the example mentioned above, where 99 customers do not churn and 1 customer churns, these problems are typically categorized into majority and minority classes. These different methods can essentially be classified into three categories: increasing the number of minority class samples to approach the number of majority class samples (oversampling), decreasing the number of majority class samples to approach the number of minority class samples (undersampling), or using a combination of both methods (hybrid sampling). Directly comparing oversampling and undersampling methods can be quite challenging, as these methods may perform differently on different datasets. However, certain characteristics of the dataset can help expedite the selection of the appropriate method. For example, if the dataset is not very large, undersampling may not be suitable because it would eliminate majority class samples, resulting in a significantly smaller dataset. In such cases, oversampling methods that increase the overall dataset size should be preferred. Oversampling methods can be further divided into random oversampling and SMOTE. The most significant difference between the two methods lies in how they handle the generation of synthetic data. While random oversampling duplicates existing minority class samples in the dataset, SMOTE generates synthetic data points close to existing minority class samples using various techniques. Since random oversampling does not introduce new examples to the machine learning algorithm and can lead to overfitting, SMOTE methods generally yield better performance improvements. In the data generation stage with the SMOTE method, first, the number of k nearest neighbors is determined for each sample. To generate synthetic data, two examples are selected: the first is the minority sample itself, and the second is a randomly chosen minority class example among its k nearest neighbors. Then, the difference between the neighbor example and the minority example is calculated. Subsequently, this difference is multiplied by a random number between 0 and 1 and added back to the minority sample. This process ensures that the newly generated synthetic data is placed between the minority sample and one of its k nearest neighbors randomly selected. Following the emergence of the SMOTE method in the literature, efforts have been focused on developing this method from various perspectives. Borderline SMOTE and K-Means SMOTE are just some of the newly proposed methods in this context. In the Borderline SMOTE method, a border between the minority and majority classes is defined, and synthetic data generation is focused only on the minority samples on this borderline. In the K-Means SMOTE method, the K-means technique is utilized, where the training set is divided into k clusters, and then decisions are made on which clusters to use for oversampling, followed by applying SMOTE steps within these clusters. In my research, I developed three different new SMOTE methods. The first one, Genetic SMOTE, focuses on variable alteration using the crossover logic commonly used in genetic algorithms between a sample and its neighbor. Randomly selected features of the sample are chosen, then these features are taken from the neighbor, while the remaining features are directly taken from the sample, resulting in the generation of new synthetic data of the same size. The second one, Dual Borderline SMOTE, is inspired by the Borderline SMOTE method. Instead of considering the ratio of minority samples within the total number of neighbors applied for Borderline, which ranges between 0.5 and 1, I adjusted it to range between 0 and 1. The significant difference between this method and Borderline SMOTE is that, while Borderline SMOTE does not consider whether the neighbors of the minority sample are on the border after finding a minority sample on the border, in this method, both the sample and its neighbor must be on the newly defined border. The last method developed is Genetic Dual Borderline SMOTE, which combines these two methods. This method applies the Dual Borderline SMOTE rules for selecting minority samples and their close minority sample neighbors, meaning that both the selected sample and its neighbor must lie on the defined borderline. When generating synthetic data from the selected two examples, instead of applying SMOTE as in the Dual Borderline SMOTE method, it focuses on variable alteration similar to the Genetic SMOTE steps. In the final section, to compare the performance of the three developed methods with the other three methods used, 8 datasets and 4 different machine learning algorithms were employed. For each dataset and algorithm, a total of 6 different SMOTE methods were evaluated for performance. During performance comparison, various parameter combinations of machine learning algorithms and SMOTE methods were tested for each dataset, and the parameters yielding the best results were selected for each dataset, model, and SMOTE method. The success of the SMOTE methods was compared using the parameters that provided the best F1 score. In the performance measurement, the F1 score of the minority class was preferred over metrics like accuracy, which are not suitable for imbalanced datasets. To reduce randomness and ensure a more reliable model, a 5-fold cross-validation score was used to calculate the F1 score. A total of 32 F1 scores (8 datasets, 4 machine learning algorithms) were obtained for each SMOTE method, and the F1 scores were illustrated in figures either overall or based on the model. Additionally, each dataset and machine learning algorithm were ranked from 1 to 6 for SMOTE methods, and the rankings were compared in the study. It has been observed that the newly developed methods outperform the existing ones. In model-based analyses, while there is not a significant difference in the performance of SMOTE methods in linear models, especially in ensemble methods, the Genetic Dual Borderline SMOTE method stands out noticeably from the others.

Benzer Tezler

Tez No
723370
A robust gradient boosting model based on smote and near miss methods for intrusion detection in imbalanced data sets
Saldırı tespit sistemleri için dengesiz veri setlerinde smote ve near mıss metotlarına dayalı güçlü gradyan artırma modeli
AHMET OKAN ARIK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Işık Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU
Tez No
439685
Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
Tez No
787054
Makine öğrenme algoritmalarıyla akciğer X-ray görüntü özniteliklerini kullanarak pnömoni tespiti ve sınıflandırılması
Pneumonia detection and classification using lung X-ray image features with machine learning algorithms
SEMİH DEMİREL
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kütahya Dumlupınar Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET ÇELİK
Tez No
559458
Purchase prediction and item prediction with RNN using different user-item interactions
Farklı kullanıcı-ürün etkileşim türlerini kullanarak özyineli sinir ağları ile ürün ve satış tahminlemesi
FULYA ÇELEBİ SARIOĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
Tez No
611869
Gürültülü gözlemler durumunda dengesiz veride öğrenme için yeni bir yaklaşım
A novel aproach for learning in imbalanced data in the presence of noise
FATİH SAĞLAM
Yüksek Lisans
Türkçe
2020
İstatistik Ondokuz Mayıs Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MEHMET ALİ CENGİZ
DR. ÖĞR. ÜYESİ EMRE DÜNDER

Geri Dön