An empirical binary classification performance comparison of ensembling random forest and gradient boosting with oversampling on scarcely populated datasets
Kıt verilerde rassal orman modeli ile aşırı örneklenmiş veride meyil gösteren ağaç modellerinin topluluklandırılmasının ikili sınıflamadaki deneysel performans karşılaştırması
- Tez No: 638214
- Danışmanlar: YRD. DOÇ. DR. ÇAĞRI LATİFOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: TED Üniversitesi
- Enstitü: Lisansüstü Programlar Enstitüsü
- Ana Bilim Dalı: Uygulamalı Veri Bilimi Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Bu çalışmanın amacı kıt veri ile ikili sınıflandırma çalışmaları için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını içeren deneysel bir yaklaşım sunmaktır. İkili sınıflamada, istatistiksel öğrenme modelleri her sınıf için öznitelikler arasındaki ilişkileri öğrenmektedir. Kıt veri durumunda, model öznitelikler arasındaki gerçek ilişkileri çıkartmakta zorlanabilir. Modelin performansını arttırmak için, öznitelik seçimi, aşırı örnekleme ve orjinal veri seti üzerinde eğitilmiş rassal orman modeli ile aşırı örneklenmiş veri seti üzerinde eğitilmiş ekstrem meyil destekleyen ağaç moldelinin topluluklamasını tekniklerini de içinde barındıran bir deneysel bir method geliştirdik. Öznitelik sayısını azaltmak için, özniteliklerin önce pearson korelasyon kriteri kullanılarak korelasyon kriterine göre, sonra ise Lasso kullanılarak sıralama kriterine göre elendiği iki safhalı bir öznitelik seçimi kullandık. Öznitelik sayısının azaltılmasından sonra yoğunluk kestirmesi ile hazırlanan kopya çekirdekten 2,500 gözlem çekildi. Önerilen modeli oluşturmak için Rassal Orman algoritması özgün veri seti üzerinde eğitildi ve ekstrem meyil destekleyen ağaç algoritması aşırı örneklenmiş model üzerinde eğitildi. Bu iki modelin çıktıları daha sonra validasyon setinin doğruluk oranını eşitlik bozucu olarak kullanarak topluluklandırıldı ve nihai sonuç elde edildi. Bu yaklaşım 4 ayrı ikili sınıflandırma veri seti üzerinde denendi. Ekstrem meyil destekleyen ağaç modelinin aşırı örneklenmiş veri seti üzerinde eğitilmesi neticesinde sınıflandırma doğruluğunun modelin orjinal veri seti ile eğitilmesine kıyasla önemli derecede arttığı gözlemlendi.
Özet (Çeviri)
The purpose of this thesis is to present an empirical approach to do binary classification when the number of observations available in the dataset is small. In binary response classification, the statistical learning model learns the relationships between the features for each response class. In the case of small sized datasets the model might fail to extract the true relationship between the features. To improve the model performance, we developed an empirical approach consisting of feature selection, oversampling and ensembling Random Forest model with Extreme Gradient Boosting model trained on oversampled dataset. A two phased feature selection is conducted where the features are eliminated according to correlation criteria using pearson correlation coefficients and ranking criteria using lasso feature elimination. After number of features are reduced using these two phases, a kernel with density estimated from the data is fitted and 2,500 observations were drawn from this kernel. For creating the proposed model, Random Forest algorithm is trained on the original dataset and Extreme Gradient Boosting algorithm is trained on the over sampled dataset. The outcomes of these two models are than ensembled using validation set accuracy as a tie breaker, to obtain the final outcome. The approach has been tested on 4 different types of binary classification datasets. It is observed that, training extreme gradient model wiht the oversampled dataset has significantly improved the classification accuracy when compared to the results of extreme gradient boosting model trained on the original datasets.
Benzer Tezler
- Clustering analysis of young isolated neutron stars on p − ṗ space
Genç izole nötron yıldızlarının p − ṗ parametre uzayında kümeleme analizi
FAHRETTİN AY
Yüksek Lisans
İngilizce
2019
Astronomi ve Uzay Bilimleriİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
PROF. DR. KAZIM YAVUZ EKŞİ
- Image processing for surface texture pattern classification
Yüzey doku örüntüsü sınıflandırma amaçlı görüntü işleme
KHAMIS SALIM BAMAMA
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiAnadolu ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ÖMER NEZİH GEREK
- Skaler-fonksiyon lojistik regresyon modelinin tahmini için dirençli bir kestirim yöntemi
A robust estimation method for scalar-on-function logistic regression model
BERKAY AKTÜRK
Yüksek Lisans
Türkçe
2023
İstatistikMarmara Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. UFUK BEYAZTAŞ
- Prediction of metropt APU performance through IoT-enabled predictive maintenance with CNN-LSTM techniques
Metropt APU performansının CNN-LSTM teknikleriyle IoT-etkin öngörücü bakım yoluyla tahmini
SHAHAD JAMEEL FARHAN ALSAID
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ FINDIK
- Online anomaly detection in the Neyman-Pearson hypothesis testing framework
Neyman-Pearson hipotez testi çerçevesinde çevrimiçi anomali tespiti
BAŞARBATU CAN
Doktora
İngilizce
2022
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSEYİN ÖZKAN