Geri Dön

Dengesiz veri kümeleri için yenilikçi bir hibrit yaklaşım: IQCM metodolojisi ve karşılaştırmalı performans analizi

An innovative hybrid approach for imbalanced datasets: IQCM methodology and comparative performance analysis

  1. Tez No: 841731
  2. Yazar: MUSTAFA YAVAŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYSUN GÜRAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 132

Özet

Bu çalışma, sınıflandırma algoritmalarının performansını etkileyen, gerçek dünya veri kümelerindeki eşit olmayan sınıf dağılımı sorununu ele almaktadır. Bu dengesizlik sorununu hafifletmek amacıyla veri izolasyonu, kümeleme, korelasyon uzaklığına ve ağırlıklı aritmetik ortalama tekniklerine dayalı yeni bir hibrit yöntem (IQCM) geliştirilmiştir. Bu yöntemin iki aşaması bulunmaktadır. Birinci aşamasında, potansiyel gürültülü örnek olarak tanımlanan aykırı değerleri tespit etmek için, örneklem azaltma sırasında çoğunluk sınıfına İzolasyon Ormanı algoritması uygulanmaktadır. İkinci aşamada ise, azınlık sınıfı örneklerin daha yüksek yoğunluklu bölgelerini tespit etmek için Kuantum Kümeleme kullanılmaktadır. Bu örnekler korelasyon uzaklığıyla ölçülerek, en yakın çiftler benzerlik ve ilişki açısından belirlenmektedir. Son adımda ağırlıklı aritmetik ortalama kullanılarak, bu çiftler arasında yeterli sayıda sentetik örnekler üretilmekte ve veri kümeleri dengelenmektedir. Çalışmanın deneysel kısmında, Twitter'dan elde edilen Covid-19 ile ilgili Türkçe/İngilizce iletiler ve farklı dengesizlik oranlarına sahip sayısal veri kümeleri kullanılmıştır. Twitter veri kümelerinde Negatif Olmayan Matris Ayrıştırma yöntemi kullanılarak konu modelleme ve duygu analizi yapılmıştır. Etiketlenen Twitter veri kümelerin dengesiz duruma sahip olduğu tespit edilmiştir. Önerilen hibrit yöntem ve mevcut yeniden örnekleme (RUS, NearMiss, SMOTE, Borderline SMOTE, SMOTE-Tomek, SVM-SMOTE, KMeans-SMOTE) yöntemleri 2 metinsel ve 20 sayısal veri kümesi ile test edilmiştir. Bu veri kümeleri önişleme aşamasında dengelenerek, Rassal Orman, Destek Vektör Makineleri ve Lojistik Regresyon algoritmalarıyla sınıflandırılmıştır. Çalışmanın sonucunda, dengesizlik sorununu azaltan ve sınıflandırma performansını artıran yöntemler belirlenmiş ve kıyaslanmıştır. Sonuçlar, önerilen yöntemin hem metinsel hem de sayısal verilerde, çalışmada kullanılan mevcut yeniden örnekleme tekniklerinden önemli ölçüde daha iyi olduğunu ve sınıflandırıcıların tahmin performansını iyileştirebildiğini göstermiştir. Ortalama F-ölçümü, AUC-ROC ve G-ortalama ölçümlerinde en iyi sonuçları vermiştir. Bu sonuçlara göre, önerilen hibrit yaklaşımın dengesiz veri kümelerinin sınıflandırılmasında daha etkili olduğu görülmüştür.

Özet (Çeviri)

This study addresses the issue of unequal class distribution in real-world datasets, which affects the performance of classification algorithms. A new hybrid method (IQCM) is developed based on data isolation, clustering, distance correlation, and weighted arithmetic mean techniques to mitigate the issue of imbalance. This method consists of two primary steps. In the first step, the Isolation Forest algorithm is applied to the majority class during undersampling to detect outliers defined as potentially noisy samples. In the second step, Quantum Clustering is used to detect higher density regions of minority class samples. By applying the distance correlation to these samples, the closest pairs are determined in terms of similarity and relationship. In the final step, utilizing weighted arithmetic mean, a sufficient number of synthetic examples are generated between these pairs, resulting in the balancing of datasets. In the experimental phase, Turkish/English tweets about Covid-19 obtained from Twitter and numerical datasets with different imbalance ratios is used. Topic modeling and sentiment analysis are performed using the Non-Negative Matrix Factorization method in Twitter datasets. It is determined that the labeled Twitter datasets have an imbalanced situation. The proposed method and existing resampling methods (RUS, NearMiss, SMOTE, Borderline SMOTE, SMOTE-Tomek, SVM-SMOTE, KMeans-SMOTE) are tested with 2 textual and 20 numerical datasets. These datasets are balanced in the preprocessing phase and classified by Random Forest, Support Vector Machines and Logistic Regression algorithms. As a result of the study, methods that reduce the imbalance problem and increase the classification performance are determined and compared. The results indicated that the proposed method is significantly better than existing resampling methods in both textual and numerical data and can improve the prediction performance of classifiers. They yield the best in the average of F-measure, AUC-ROC and G-mean. According to these findings, it has been observed that the suggested hybrid approach is more effective in classifying imbalanced datasets.

Benzer Tezler

  1. Siber güvenlikte makine öğrenimi tabanlı zararlı yazılımların algılanması ve analizi

    Detection and analysis of malicious software in cybersecurity using machine learning

    AHMET ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SELMAN HIZAL

  2. Çevrimiçi otel değerlendirme yorumları için transformatör tabanlı duygu analizi çerçevesi

    Transformer-based sentiment analysis framework for online hotel reviews

    FIQI AMALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİL YİĞİT

  3. Comparison of machine learning algorithms for financial evaluations

    Finansal değerlendirmeler için makine öğrenmesi algoritmalarının karşılaştırılması

    WUDAY COLLEY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    ASSOC. DR. MEHMET GÖKTÜRK

  4. Türkçe his analizinde optimizasyon ve ön-eğitimli modellerin kullanımı

    Use of optimization and pre-trained models in Turkish emotion analysis

    ALAETTİN UÇAN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EBRU SEZER

  5. Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: Ainus

    AiNet algorithm-based undersampling method for imbalanced classification problems: Ainus

    KÜBRANUR GÜMÜŞLÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE MERVE ACILAR