Dynamic ensemble diversification and hash-based undersampling for the classification of multi-class imbalanced data streams
Çok sınıflı dengesiz veri akışlarının sınıflandırılması için dinamik topluluk çeşitlendirme ve kargaşa-tabanlı az örnekleme
- Tez No: 889605
- Danışmanlar: PROF. DR. FAZLI CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 79
Özet
Eşit olmayan sınıf dağılımlarına sahip dengesiz veri akışlarının sınıflandırılması, özellikle çoklu-sınıf ve kavram kayması ile uğraşırken makine öğreniminde çözülmesi gereken önemli problemlerden biridir. İkili dengesiz veri akışı sınıflandırma işlemi literatürde büyük ilgi görmüşken, ancak birkaç çalışma çok sınıflı dengesiz veri akışlarına odaklanmıştır. Ayrıca, dinamik dengesizlik oranıyla başa çıkmak büyük önem taşımaktadır. Bu çalışma, Dinamik Topluluk Çeşitlendirme (DynED) çerçevesine Rastgele Hiper Düzlem Projeksiyonları ile Yerelliğe Duyarlı Kargaşa'yı (LSH-RHP) entegre ederek bu zorlukları ele almak için yeni, sağlam ve esnek bir yaklaşım sunmaktadır. Bildiğimiz kadarıyla, dengesiz ve durağan olmayan veri akışları bağlamında az örnekleme için LSH-RHP'nin ilk uygulamasını sunuyoruz. Önerilen yöntem, LSH-RHP kullanarak çoğunluk sınıflarını az örneklemekte, dengeli bir eğitim seti sağlamakta ve topluluğun tahmin doğruluğunu artırmaktadır. Bu çalışmada gerçek dünyadan 23 ve yarı sentetik 10 veri kümesi üzerinde kapsamlı deneyler gerçekleştirilmiş ve LSH-DynED 15 önde gelen yöntemle karşılaştırılmıştır. Sonuçlar, LSH-DynED'in hem Kappa hem de mG-Mean etkinlik ölçütleri açısından diğer yaklaşımlardan daha başarılı olduğunu ve çok sınıflı dengesiz, durağan olmayan veri akışlarıyla başa çıkma konusunda daha etkin olduğunu göstermektedir. Özetle, LSH-DynED önemli sınıf dengesizliklerine sahip büyük ölçekli, yüksek boyutlu veri kümelerinde iyi performans sergilemekte ve gerçek dünya koşullarına uyumluluk ve sağlamlık sergilemektedir. Sonuçlarımızın yeniden üretilebilirliği için uygulamamız GitHub'da kullanıma sunulmuştur.
Özet (Çeviri)
The classification of imbalanced data streams, which have unequal class distributions, is a key difficulty in machine learning, especially when dealing with multiple classes and concept drift. While binary imbalanced data stream classification tasks have received considerable attention, only a few studies have focused on multi-class imbalanced data streams. Additionally, dealing with the dynamic imbalance ratio is of great importance. This study introduces a novel, robust, and resilient approach to address these challenges by integrating Locality Sensitive Hashing with Random Hyperplane Projections (LSH-RHP) into the Dynamic Ensemble Diversification (DynED) framework. To the best of our knowledge, we present the first application of LSH-RHP for undersampling in the context of imbalanced non-stationary data streams. The proposed method, undersamples majority classes by utilizing LSH-RHP, provides a balanced training set, and improves the ensemble's prediction accuracy. We conduct comprehensive experiments on 23 real-world and ten semi-synthetic datasets and compare LSH-DynED with 15 state-of-the-art methods. The results reveal that LSH-DynED outperforms other approaches in terms of both Kappa and mG-Mean effectiveness measures, demonstrating its capability in dealing with multi-class imbalanced non-stationary data streams. Notably, LSH-DynED performs well in large-scale, high-dimensional datasets with considerable class imbalances and demonstrates adaptation and robustness in real-world circumstances. For the reproducibility of our results, we have made our implementation available on GitHub.
Benzer Tezler
- Otomatik üretim kontrolü sistemlerine yapılan yanlış veri enjeksiyon saldırılarının torbalama ağaçları algoritması ile tespiti
Detection of false data injection attacks on automatic generation control systems with bagged trees algorithm
ATAKAN ÖZTÜRK
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. VEYSEL MURAT İSTEMİHAN GENÇ
- Metin sınıflandırması için sınıflandırıcı topluluğu yaklaşımları
Ensemble methods for text classification
İSMAİL TERZİ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER KÜRŞAT UYSAL
- BELS: A broad ensemble learning system for data stream classification
BELS: Veri akışı sınıflandırması için geniş bir topluluk öğrenim sistemi
SEPEHR BAKHSHI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FAZLI CAN
- Dynamic improved complete ensemble empirical mode decomposition
Dinamik gelişmiş tümden birleşik görgül kip ayrışımı
SUZANNE HUSSEIN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. KADİR TUFAN
- Predicting direction of stock price movement by using adaptive ensemble learning method
Hisse senedi fiyatı hareket yönünün adaptif topluluk öğrenmesi metodu ile tahmin edilmesi
ALİ ÖZKAN PEKMEZ
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN