Geri Dön

An empirical binary classification performance comparison of ensembling random forest and gradient boosting with oversampling on scarcely populated datasets

Kıt verilerde rassal orman modeli ile aşırı örneklenmiş veride meyil gösteren ağaç modellerinin topluluklandırılmasının ikili sınıflamadaki deneysel performans karşılaştırması

  1. Tez No: 638214
  2. Yazar: HANDE ALP
  3. Danışmanlar: YRD. DOÇ. DR. ÇAĞRI LATİFOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: TED Üniversitesi
  10. Enstitü: Lisansüstü Programlar Enstitüsü
  11. Ana Bilim Dalı: Uygulamalı Veri Bilimi Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Bu çalışmanın amacı kıt veri ile ikili sınıflandırma çalışmaları için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını içeren deneysel bir yaklaşım sunmaktır. İkili sınıflamada, istatistiksel öğrenme modelleri her sınıf için öznitelikler arasındaki ilişkileri öğrenmektedir. Kıt veri durumunda, model öznitelikler arasındaki gerçek ilişkileri çıkartmakta zorlanabilir. Modelin performansını arttırmak için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını tekniklerini de içinde barındıran bir deneysel bir method geliştirdik. Öznitelik sayısını azaltmak için, özniteliklerin önce pearson korelasyon kriteri kullanılarak korelasyon kriterine göre, sonra ise Lasso kullanılarak sıralama kriterine göre elendiği iki safhalı bir öznitelik seçimi kullandık. Öznitelik sayısının azaltılmasından sonra yoğunluk kestirmesi ile hazırlanan kopya çekirdekten 2,500 gözlem çekildi. Önerilen modeli oluşturmak için Rassal Orman algoritması özgün veri seti üzerinde eğitildi ve ekstrem meyil destekleyen ağaç algoritması aşırı örneklenmiş model üzerinde eğitildi. Bu iki modelin çıktıları daha sonra validasyon setinin doğruluk oranını eşitlik bozucu olarak kullanarak topluluklandırıldı ve nihai sonuç elde edildi. Bu yaklaşım 4 ayrı ikili sınıflandırma veri seti üzerinde denendi. Ekstrem meyil destekleyen ağaç modelinin aşırı örneklenmiş veri seti üzerinde eğitilmesi neticesinde sınıflandırma doğruluğunun modelin orjinal veri seti ile eğitilmesine kıyasla önemli derecede arttığı gözlemlendi.

Özet (Çeviri)

The purpose of this thesis is to present an empirical approach to do binary classification when the number of observations available in the dataset is small. In binary response classification, the statistical learning model learns the relationships between the features for each response class. In the case of small sized datasets the model might fail to extract the true relationship between the features. To improve the model performance, we developed an empirical approach consisting of feature selection, oversampling and ensembling Random Forest model with Extreme Gradient Boosting model trained on oversampled dataset. A two phased feature selection is conducted where the features are eliminated according to correlation criteria using pearson correlation coefficients and ranking criteria using lasso feature elimination. After number of features are reduced using these two phases, a kernel with density estimated from the data is fitted and 2,500 observations were drawn from this kernel. For creating the proposed model, Random Forest algorithm is trained on the original dataset and Extreme Gradient Boosting algorithm is trained on the over sampled dataset. The outcomes of these two models are than ensembled using validation set accuracy as a tie breaker, to obtain the final outcome. The approach has been tested on 4 different types of binary classification datasets. It is observed that, training extreme gradient model wiht the oversampled dataset has significantly improved the classification accuracy when compared to the results of extreme gradient boosting model trained on the original datasets.

Benzer Tezler

  1. Clustering analysis of young isolated neutron stars on p − ṗ space

    Genç izole nötron yıldızlarının p − ṗ parametre uzayında kümeleme analizi

    FAHRETTİN AY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Astronomi ve Uzay Bilimleriİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE

    PROF. DR. KAZIM YAVUZ EKŞİ

  2. Image processing for surface texture pattern classification

    Yüzey doku örüntüsü sınıflandırma amaçlı görüntü işleme

    KHAMIS SALIM BAMAMA

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiAnadolu Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖMER NEZİH GEREK

  3. Skaler-fonksiyon lojistik regresyon modelinin tahmini için dirençli bir kestirim yöntemi

    A robust estimation method for scalar-on-function logistic regression model

    BERKAY AKTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İstatistikMarmara Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. UFUK BEYAZTAŞ

  4. Prediction of metropt APU performance through IoT-enabled predictive maintenance with CNN-LSTM techniques

    Metropt APU performansının CNN-LSTM teknikleriyle IoT-etkin öngörücü bakım yoluyla tahmini

    SHAHAD JAMEEL FARHAN ALSAID

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ FINDIK

  5. Online anomaly detection in the Neyman-Pearson hypothesis testing framework

    Neyman-Pearson hipotez testi çerçevesinde çevrimiçi anomali tespiti

    BAŞARBATU CAN

    Doktora

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ÖZKAN