Geri Dön

Dynamic ensemble diversification and hash-based undersampling for the classification of multi-class imbalanced data streams

Çok sınıflı dengesiz veri akışlarının sınıflandırılması için dinamik topluluk çeşitlendirme ve kargaşa-tabanlı az örnekleme

  1. Tez No: 889605
  2. Yazar: SOHEIL ABADIFARD
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Eşit olmayan sınıf dağılımlarına sahip dengesiz veri akışlarının sınıflandırılması, özellikle çoklu-sınıf ve kavram kayması ile uğraşırken makine öğreniminde çözülmesi gereken önemli problemlerden biridir. İkili dengesiz veri akışı sınıflandırma işlemi literatürde büyük ilgi görmüşken, ancak birkaç çalışma çok sınıflı dengesiz veri akışlarına odaklanmıştır. Ayrıca, dinamik dengesizlik oranıyla başa çıkmak büyük önem taşımaktadır. Bu çalışma, Dinamik Topluluk Çeşitlendirme (DynED) çerçevesine Rastgele Hiper Düzlem Projeksiyonları ile Yerelliğe Duyarlı Kargaşa'yı (LSH-RHP) entegre ederek bu zorlukları ele almak için yeni, sağlam ve esnek bir yaklaşım sunmaktadır. Bildiğimiz kadarıyla, dengesiz ve durağan olmayan veri akışları bağlamında az örnekleme için LSH-RHP'nin ilk uygulamasını sunuyoruz. Önerilen yöntem, LSH-RHP kullanarak çoğunluk sınıflarını az örneklemekte, dengeli bir eğitim seti sağlamakta ve topluluğun tahmin doğruluğunu artırmaktadır. Bu çalışmada gerçek dünyadan 23 ve yarı sentetik 10 veri kümesi üzerinde kapsamlı deneyler gerçekleştirilmiş ve LSH-DynED 15 önde gelen yöntemle karşılaştırılmıştır. Sonuçlar, LSH-DynED'in hem Kappa hem de mG-Mean etkinlik ölçütleri açısından diğer yaklaşımlardan daha başarılı olduğunu ve çok sınıflı dengesiz, durağan olmayan veri akışlarıyla başa çıkma konusunda daha etkin olduğunu göstermektedir. Özetle, LSH-DynED önemli sınıf dengesizliklerine sahip büyük ölçekli, yüksek boyutlu veri kümelerinde iyi performans sergilemekte ve gerçek dünya koşullarına uyumluluk ve sağlamlık sergilemektedir. Sonuçlarımızın yeniden üretilebilirliği için uygulamamız GitHub'da kullanıma sunulmuştur.

Özet (Çeviri)

The classification of imbalanced data streams, which have unequal class distributions, is a key difficulty in machine learning, especially when dealing with multiple classes and concept drift. While binary imbalanced data stream classification tasks have received considerable attention, only a few studies have focused on multi-class imbalanced data streams. Additionally, dealing with the dynamic imbalance ratio is of great importance. This study introduces a novel, robust, and resilient approach to address these challenges by integrating Locality Sensitive Hashing with Random Hyperplane Projections (LSH-RHP) into the Dynamic Ensemble Diversification (DynED) framework. To the best of our knowledge, we present the first application of LSH-RHP for undersampling in the context of imbalanced non-stationary data streams. The proposed method, undersamples majority classes by utilizing LSH-RHP, provides a balanced training set, and improves the ensemble's prediction accuracy. We conduct comprehensive experiments on 23 real-world and ten semi-synthetic datasets and compare LSH-DynED with 15 state-of-the-art methods. The results reveal that LSH-DynED outperforms other approaches in terms of both Kappa and mG-Mean effectiveness measures, demonstrating its capability in dealing with multi-class imbalanced non-stationary data streams. Notably, LSH-DynED performs well in large-scale, high-dimensional datasets with considerable class imbalances and demonstrates adaptation and robustness in real-world circumstances. For the reproducibility of our results, we have made our implementation available on GitHub.

Benzer Tezler

  1. Otomatik üretim kontrolü sistemlerine yapılan yanlış veri enjeksiyon saldırılarının torbalama ağaçları algoritması ile tespiti

    Detection of false data injection attacks on automatic generation control systems with bagged trees algorithm

    ATAKAN ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. VEYSEL MURAT İSTEMİHAN GENÇ

  2. Metin sınıflandırması için sınıflandırıcı topluluğu yaklaşımları

    Ensemble methods for text classification

    İSMAİL TERZİ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER KÜRŞAT UYSAL

  3. BELS: A broad ensemble learning system for data stream classification

    BELS: Veri akışı sınıflandırması için geniş bir topluluk öğrenim sistemi

    SEPEHR BAKHSHI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  4. Dynamic improved complete ensemble empirical mode decomposition

    Dinamik gelişmiş tümden birleşik görgül kip ayrışımı

    SUZANNE HUSSEIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assist. Prof. Dr. KADİR TUFAN

  5. Predicting direction of stock price movement by using adaptive ensemble learning method

    Hisse senedi fiyatı hareket yönünün adaptif topluluk öğrenmesi metodu ile tahmin edilmesi

    ALİ ÖZKAN PEKMEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN