Under-sampling models to improve classification of rare class in imbalanced dataset
Dengesiz veri kümesinde nadir sınıfın sınıflandırılmasını geliştirmek için alt örnekleme modelleri
- Tez No: 672469
- Danışmanlar: Assist. Prof. Dr. SEFER KURNAZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Altınbaş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Elektrik ve Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 89
Özet
Dengesiz verilerin sınıflandırılmasında, doğru tahminler, özellik uzayındaki veri dağılımının özelliklerinden etkilenir. Eşit olmayan sınıf ve sınıflar arasında örtüşen, küçük sınıf örneklerinin sınıflandırılmasının verimliliği üzerinde etkisi olan temel özelliklerdir. Bu sorunlar, bilgi keşfine büyük ilgi duyan anormallik tespiti, öğrencilerin okulu bırakmalarını öngörme, hastalık teşhisi vb. Gibi çeşitli gerçekçi uygulamalarda ortaya çıkar. Bu çalışma, birçok uygulama için önemli olan yan sınıfın sınıflandırma verimliliğini artırmak için iki eksik örnekleme tekniği sunmaktadır. Bu araştırmanın ilk amacı için, ana sınıfa yönelik sınıflandırma önyargılarını en aza indirmek için ana sınıf büyüklüğünün altını örnekleyerek eşit olmayan dağıtım sorununu ele alan yeni bir yöntemi araştırdık. Bu yönteme Hellinger mesafesi alt örnekleme modeli (HDUS) adı verilir. Model, Hellinger mesafesini kullanarak, her bir ana sınıf örneği ile komşu küçük sınıf örnekleri arasındaki benzerliği hesaplar, ardından küçük sınıfı değişmeden tutmayı düşünerek en yüksek benzerlik ana örneklerini seçer. Ana sınıfın eksik örneklenmesi, küçük sınıf örneklerini daha iyi ayırt etmesine yol açtı. Deneyler, HDUS'un yüksek hassasiyet, F1-Ölçü ve dengeli doğruluk sağlayarak alt sınıfın sınıflandırma performansını iyileştirdiğini göstermektedir. Sonuçlar ayrıca, HDUS'un son teknoloji ürünü düşük örnekleme modellerinden daha iyi performans gösterdiğini de göstermektedir. Bu araştırmanın ikinci amacı için, önerilen HDUS'u ANOVA özellik seçimi (HDUS + FS) ile birleştirerek hem dengesiz dağılımı hem de örtüşen sorunları ele alan bir model sunuyoruz. Bu model, gürültü olarak tanımlanan örnekleri ortadan kaldırmak için HDUS modeli kullanılarak oluşturulmuştur; daha sonra, sınır bölgesinde yüksek bir örtüşmeyi gösterebilen özellikleri ortadan kaldırmak için ANOVA özellik seçimini kullanır. Deney, önerilen HDUS + FS modelimizin sağlamlığını, tek başına özellik seçiminden daha iyi performans gösterdi ve FS modelleriyle birleştirilmiş son teknoloji ürünü.
Özet (Çeviri)
In classifying the unbalanced data, the accurate predictions are influenced by the characteristics of data distribution in feature space. The unequal class and overlapping between classes are essential features which have an impact on the efficiency of the classification of minor class instances. These problems occur in various realistic applications such as anomaly detection, predicting students drop out of school, disease diagnosis, etc., which are of immense interest in knowledge discovery. This study presented two under-sampling techniques to improve the classification efficiency of the minor class which is of importance to many applications. For the first objective of this research, we investigated a new method that handles the unequal distribution problem by under-sampling the major class size to minimize the classification biases toward the major class. This method is named the Hellinger distance under-sampling model (HDUS). By using Hellinger distance, the model calculates the similarity between each major class samples and its neighboring minor class samples, then selects the highest resemblance major instances considering to keep the minor class without change. Under-sampling the major class led to better discriminates the minor class instances. The experiments show that HDUS improve the classification performance of minor class by providing high sensitivity, F1-Measure and balanced accuracy. Results also indicate that HDUS can outperform state-of-the-arts under-sampling models. For the second objective of this research, we present a model that handle both unbalanced distribution and overlapping problems by combining the proposed HDUS with ANOVA feature selection (HDUS+FS). This model has been built by employing HDUS model to remove the instances which identified as a noise; then employing ANOVA feature selection to eliminate the features that can indicate a high overlap in the boundary region. The experiment demonstrates the robustness of our proposed HDUS+FS model which outperforms feature selection alone and the state-of-the-arts combined with FS models.
Benzer Tezler
- Farklı sayısal yüzey modellerinin doğruluk değerlendirmesi
Accuracy assessment of different digital surface models
BARIŞ BEŞOL
Yüksek Lisans
Türkçe
2021
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. UĞUR ALGANCI
- Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti
An application of machine learning to anomaly detection in insurance industry using strategic management approach
AYŞE NURBANU ŞAHAN
Yüksek Lisans
Türkçe
2020
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. TOLGA KAYA
- Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Robot kolların geleneksel ve dinamik kontrolu
Başlık çevirisi yok
HASAN PALAZ
Yüksek Lisans
Türkçe
1991
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. KEMAL SARIOĞLU
- Comprehensive risk mapping and fire station optimization for forest fire management: An application in Antalya
Orman yangını yönetimi için kapsamlı risk haritalama ve yangın istasyonu optimizasyonu: Antalya uygulaması
ZÜHAL ÖZCAN YAVUZ
Doktora
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR KABAK
DR. ÖĞR. ÜYESİ İNCİ ÇAĞLAYAN