Veri madenciliğindeki sınıf dengesizliği sorununun giderilmesi
Alleviating the class imbalance problem in data mining
- Tez No: 355694
- Danışmanlar: YRD. DOÇ. DR. SONGÜL ALBAYRAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
İki-sınıflı veri setlerindeki en önemli sorunlarından biri olan sınıf dengesizliği sorununu çözmek son yıllarda daha fazla önem kazanmıştır. Veri kümesinde sınıf dağılımı dengesiz olduğu zaman, geleneksel makine öğrenme yöntemleri genellikle azınlık sınıfının görülmemiş örnekleri için düşük sınıflama başarısı vermektedir. Çünkü çoğunluk sınıfına doğru kuvvetle yönlenme eğilimindedir. Literatürde sınıf dengesizliği sorununu gidermek için çeşitli algoritmalar mevcuttur. Bu tez, sınıf dengesizliği probleminin önemini ve problemin çözümünün veri madenciliğindeki geniş uygulama alanlarını değerlendirme ölçüleri ile tanıtır. Ayrıca dengesizlik sorununu değerlendirmek ve çözmek için mevcut yöntemleri, C4.5, DVM ve KNN gibi farklı sınıflandırıcıları temel öğrenici olarak kullanarak karşılaştırır. En iyi temel öğreniciyi ve çoğunluk ve azınlık sınıfları dağılımına göre en iyi performansa sahip algoritmayi bulmak amacıyla çeşitli deneyler yapılmıştır. Buna ek olarak, tez kapsamında geliştirilen yeni bir algoritma olarak RusAda önerilmiştir ve bu algoritma tezde incelenen diğer algoritmalarla karşılaştırılmıştır.
Özet (Çeviri)
The class imbalance problem in two-class data sets which is one of the most important problems has got more and more emphasis in recent years. When the class distribution of a data set is imbalanced, a conventional machine learning method usually has poor classification accuracy for unseen examples from the minority class because it is strongly biased towards the majority class. There are several algorithms to alleviate the problem of class imbalance in literature. This paper introduces the importance of class imbalance problem and their broad application domains in data mining, and then summarizes the evaluation metrics and compares the existing methods using different classifiers like C4.5, DVM, and KNN as base learners to evaluate and solve the imbalance problem. Several experiments have been done in order to find the best base learner and the algorithm which has the best performance according to the distribution of majority and minority classes. In addition, we proposed a new algorithm RusAda and have done some investigations comparing the performance of RusAda with the other algorithms used in this paper.
Benzer Tezler
- Combination of PCA with smote oversampling for classification of high-dimensional imbalanced data
Yüksek boyutlu dengesiz verilerin sınıflandırılması için smote aşırı örnekleme ile PCA'nın kombinasyonu
GUHDAR ABDULAZIZ AHMED MULLA
Yüksek Lisans
İngilizce
2021
İstatistikVan Yüzüncü Yıl Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIRIM DEMİR
DR. MASOUD MUHAMMED HASSAN
- Gerçek veri setlerinde sınıflandırma yöntemlerinin performanslarının karşılaştırılması
Comparision of performance of classfication methods in real data sets
RAMAZAN AYÖZ
Yüksek Lisans
Türkçe
2021
İstatistikMuğla Sıtkı Koçman Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. NEVİN GÜLER DİNCER
- Veri madenciliğinde hiyerarşik kümeleme algoritmalarının uygulamalı karşılaştırılması
Comparison of hierarchical clustering algorithms in data mining with applications
YUSUF ALTINOK
Yüksek Lisans
Türkçe
2019
EkonometriMarmara ÜniversitesiEkonometri Ana Bilim Dalı
PROF. DR. AHMET METE ÇİLİNGİRTÜRK
- Veri madenciliğinde kategorik veri analizi:teknoloji bağımlılığı üzerine bir uygulama
Categorical data analysis in data mining:an application on technology addiction
RAMAZAN PEHLİVAN
Doktora
Türkçe
2023
İstatistikİstanbul Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. ÇİĞDEM ARICIGİL ÇİLAN
- Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı
Utilization of metaheuristic optimization methods for feature selection and discretization on classification problems
İSMAİL KOÇ
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İSMAİL BABAOĞLU