Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi
An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis
- Tez No: 841731
- Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Doğuş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 132
Özet
Bu çalışma, sınıflandırma algoritmalarının performansını etkileyen, gerçek dünya veri kümelerindeki eşit olmayan sınıf dağılımı sorununu ele almaktadır. Bu dengesizlik sorununu hafifletmek amacıyla veri izolasyonu, kümeleme, korelasyon uzaklığına ve ağırlıklı aritmetik ortalama tekniklerine dayalı yeni bir hibrit yöntem (IQCM) geliştirilmiştir. Bu yöntemin iki aşaması bulunmaktadır. Birinci aşamasında, potansiyel gürültülü örnek olarak tanımlanan aykırı değerleri tespit etmek için, örneklem azaltma sırasında çoğunluk sınıfına İzolasyon Ormanı algoritması uygulanmaktadır. İkinci aşamada ise, azınlık sınıfı örneklerin daha yüksek yoğunluklu bölgelerini tespit etmek için Kuantum Kümeleme kullanılmaktadır. Bu örnekler korelasyon uzaklığıyla ölçülerek, en yakın çiftler benzerlik ve ilişki açısından belirlenmektedir. Son adımda ağırlıklı aritmetik ortalama kullanılarak, bu çiftler arasında yeterli sayıda sentetik örnekler üretilmekte ve veri kümeleri dengelenmektedir. Çalışmanın deneysel kısmında, Twitter'dan elde edilen Covid-19 ile ilgili Türkçe/İngilizce iletiler ve farklı dengesizlik oranlarına sahip sayısal veri kümeleri kullanılmıştır. Twitter veri kümelerinde Negatif Olmayan Matris Ayrıştırma yöntemi kullanılarak konu modelleme ve duygu analizi yapılmıştır. Etiketlenen Twitter veri kümelerin dengesiz duruma sahip olduğu tespit edilmiştir. Önerilen hibrit yöntem ve mevcut yeniden örnekleme (RUS, NearMiss, SMOTE, Borderline SMOTE, SMOTE-Tomek, SVM-SMOTE, KMeans-SMOTE) yöntemleri 2 metinsel ve 20 sayısal veri kümesi ile test edilmiştir. Bu veri kümeleri önişleme aşamasında dengelenerek, Rassal Orman, Destek Vektör Makineleri ve Lojistik Regresyon algoritmalarıyla sınıflandırılmıştır. Çalışmanın sonucunda, dengesizlik sorununu azaltan ve sınıflandırma performansını artıran yöntemler belirlenmiş ve kıyaslanmıştır. Sonuçlar, önerilen yöntemin hem metinsel hem de sayısal verilerde, çalışmada kullanılan mevcut yeniden örnekleme tekniklerinden önemli ölçüde daha iyi olduğunu ve sınıflandırıcıların tahmin performansını iyileştirebildiğini göstermiştir. Ortalama F-ölçümü, AUC-ROC ve G-ortalama ölçümlerinde en iyi sonuçları vermiştir. Bu sonuçlara göre, önerilen hibrit yaklaşımın dengesiz veri kümelerinin sınıflandırılmasında daha etkili olduğu görülmüştür.
Özet (Çeviri)
This study addresses the issue of unequal class distribution in real-world datasets, which affects the performance of classification algorithms. A new hybrid method (IQCM) is developed based on data isolation, clustering, distance correlation, and weighted arithmetic mean techniques to mitigate the issue of imbalance. This method consists of two primary steps. In the first step, the Isolation Forest algorithm is applied to the majority class during undersampling to detect outliers defined as potentially noisy samples. In the second step, Quantum Clustering is used to detect higher density regions of minority class samples. By applying the distance correlation to these samples, the closest pairs are determined in terms of similarity and relationship. In the final step, utilizing weighted arithmetic mean, a sufficient number of synthetic examples are generated between these pairs, resulting in the balancing of datasets. In the experimental phase, Turkish/English tweets about Covid-19 obtained from Twitter and numerical datasets with different imbalance ratios is used. Topic modeling and sentiment analysis are performed using the Non-Negative Matrix Factorization method in Twitter datasets. It is determined that the labeled Twitter datasets have an imbalanced situation. The proposed method and existing resampling methods (RUS, NearMiss, SMOTE, Borderline SMOTE, SMOTE-Tomek, SVM-SMOTE, KMeans-SMOTE) are tested with 2 textual and 20 numerical datasets. These datasets are balanced in the preprocessing phase and classified by Random Forest, Support Vector Machines and Logistic Regression algorithms. As a result of the study, methods that reduce the imbalance problem and increase the classification performance are determined and compared. The results indicated that the proposed method is significantly better than existing resampling methods in both textual and numerical data and can improve the prediction performance of classifiers. They yield the best in the average of F-measure, AUC-ROC and G-mean. According to these findings, it has been observed that the suggested hybrid approach is more effective in classifying imbalanced datasets.
Benzer Tezler
- Siber güvenlikte makine öğrenimi tabanlı zararlı yazılımların algılanması ve analizi
Detection and analysis of malicious software in cybersecurity using machine learning
AHMET ÖZTÜRK
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELMAN HIZAL
- Çevrimiçi otel değerlendirme yorumları için transformatör tabanlı duygu analizi çerçevesi
Transformer-based sentiment analysis framework for online hotel reviews
FIQI AMALI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. HALİL YİĞİT
- Comparison of machine learning algorithms for financial evaluations
Finansal değerlendirmeler için makine öğrenmesi algoritmalarının karşılaştırılması
WUDAY COLLEY
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
ASSOC. DR. MEHMET GÖKTÜRK
- Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı
Use of optimization and pre-trained models in Turkish emotion analysis
ALAETTİN UÇAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EBRU SEZER
- Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: Ainus
AiNet algorithm-based undersampling method for imbalanced classification problems: Ainus
KÜBRANUR GÜMÜŞLÜ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE MERVE ACILAR