Geri Dön

Combination of PCA with smote oversampling for classification of high-dimensional imbalanced data

Yüksek boyutlu dengesiz verilerin sınıflandırılması için smote aşırı örnekleme ile PCA'nın kombinasyonu

  1. Tez No: 657659
  2. Yazar: GUHDAR ABDULAZIZ AHMED MULLA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YILDIRIM DEMİR, DR. MASOUD MUHAMMED HASSAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Van Yüzüncü Yıl Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 93

Özet

Dengesiz verilerin sınıflandırması, sınıflandırıcıların daha büyük veri sınıfına doğru çarpıtıldığı veri madenciliğinde yaygın bir konudur. Yüksek boyutlu çarpık (dengesiz) verilerin sınıflandırılması, daha zor olduğundan karar vericiler için büyük ilgi görmektedir. Değişkenlerin azaltıldığı bir süreç olan boyut indirgeme yöntemi, yüksek boyutlu veri setlerinin belirli bir kayıpla daha kolay yorumlanmasını sağlamaktadır. Ayrıca, yüksek boyutlu dengesiz verilerin sınıflandırılması tekrarlanan bir sorun haline gelmiştir. Bu çalışmada, yüksek boyutlu verilerde dengesizlik problemini çözmek için SMOTE aşırı örnekleme ile Temel Bileşen Analizini (PCA) birleştiren yeni bir yöntem önerilmiştir. Önerilen yöntemin etkinliğini kontrol etmek ve sınıflandırıcıların performansını belirlemek için Karar Ağacı (DT), Destek Vektör Makineleri (SVM), En Yakın Komşu (K-NN), Naive Bayes (NB), Lojistik Regresyon (LR) ve Yapay Sinir Ağlarından (ANN) oluşan altı sınıflandırma algoritması ve altı farklı veri kümesi kullanılmıştır. Sırasıyla, ham veri setleri, PCA, SMOTE ve SMOTE+PCA yöntemleriyle dönüştürülen veri setleri verilen algoritmalarla analiz edilmiştir. Analizler WEKA programlama dillerinden yararlanılarak yapılmıştır. Analiz sonuçları, neredeyse tüm sınıflandırma algoritmalarının PCA, SOMTE ve SMOTE+PCA yöntemlerini kullanarak sınıflandırma performanslarını iyileştirdiğini göstermektedir. Bununla birlikte, SMOTE yöntemi, verilerin yeniden dengelenmesi için PCA ve PCA+SMOTE yöntemlerinden daha etkili sonuçlar vermiştir. Ayrıca deneysel sonuçlar, SVM ve K-NN sınıflandırıcılarının diğer algoritmalara kıyasla daha yüksek sınıflandırma performansı sağladığını göstermektedir.

Özet (Çeviri)

Imbalanced data classification is a common issue in data mining where the classifiers are skewed towards the larger data class. Classification of high-dimensional skewed (imbalanced) data is of great interest to decision makers as it is more difficult to. Dimension reduction method, which is a process in which variables are reduced, allows high dimensional datasets to be interpreted more easily with a certain loss. Furthermore, classification of high dimensional imbalanced data has become a recurring problem. In this study, a new method combining SMOTE oversampling with Principal Component Analysis (PCA) is proposed to solve the imbalance problem in high dimensional data. Six classification algorithms consisting of Decision Tree (DT), Support Vector Machines (SVM), K-Nearest Neighbor Method (K-NN), Naive Bayes (NB), Logistic Regression (LR) and Artificial Neural Networks (ANN) and six different datasets were used to check the efficiency of the proposed method and determine the performance of the classifiers. Respectively, raw datasets, converted datasets by PCA, SMOTE and SMOTE+PCA (SMOTE and PCA) methods, were analyzed with the given algorithms. Analyzes were made using WEKA. Analysis results suggest that almost all classification algorithms improve their classification performance by using PCA, SOMTE and SMOTE+PCA methods. However, the SMOTE method gave more efficient results than PCA and PCA+SMOTE methods for data rebalancing. Experimental results also suggest that SVM and K-NN classifiers provided higher classification performance compared to other algorithms.

Benzer Tezler

  1. Total abdominal histerektomilerde deksketoprofen ve lornoksikam uygulamasının postoperatif analjezik gereksinimi üzerine etkileri

    Comparison of the efficacy of dexketoprofen and lornoxicam on the postoperative analgesic requirements in patients undergoing total abdominal hysterectomy

    RİME RANA KARTUM

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2011

    Anestezi ve ReanimasyonMustafa Kemal Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    PROF. DR. SELİM TURHANOĞLU

  2. Player modeling by using unsupervised learning methods

    Gözetimsiz öğrenme yöntemleri ile oyuncu modelleme

    MEHMET FATİH KAVUM

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER

  3. Analysis of leukemia cancer classification with supervised machine learning and deep reinforcement learning based on gene expression monitoring (via DNA microarray)

    Denetimli makine öğrenimi ve gen ifade izlemeye dayalı derin takviyeli öğrenme ile lösemi kanseri sınıflandırmasının analizi (DNA mikrodizisi aracılığıyla)

    ZAID MOHAMMED IBRAHIM IBRAHIM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUS ÇEVİK

    PROF. DR. TURGAY İBRİKÇİ

  4. Face recognition system based on PCA-wavelet and support vector machines

    Başlık çevirisi yok

    SHERKO BAPER SAEED

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHasan Kalyoncu Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CELAL KORAŞLI

    DR. LAITH REZOUKI FLIAH

  5. Dental and skeletal characteristics of orthodontic patients with deep curve of spee: Classification using cluster analysis

    Derin spee eğrisi bulunan ortodonti hastalarinin dental ve i̇skeletsel karakteristiği: Kümeleme analizi kullanilan siniflandirma

    AYŞE SELENGE AKBULUT

    Doktora

    İngilizce

    İngilizce

    2017

    Diş HekimliğiKyung Hee University

    Ortodonti Ana Bilim Dalı

    YRD. DOÇ. KYUNG-A KIM