Effects of missing data on tree based ensemble multitask learning method
Başlık çevirisi mevcut değil.
- Tez No: 714498
- Danışmanlar: Belirtilmemiş.
- Tez Türü: Yüksek Lisans
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: The University of Sheffield
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 51
Özet
Özet yok.
Özet (Çeviri)
Background: The missing data issue is a common problem in the world of data mining and machine learning. The effect of the missing data is known, yet there are not much knowledge explains the magnitude of the performance loss. Aims: This study aimed to investigate the performance loss occurred in tree based ensembled multitask method by comparing the imputation methods. Methods: Tree based ensemble multitask learning models were developed and trained with the data that consists of the percent inhibition values between biological targets and molecules. The variables in the training data were deleted iteratively for representing a data set with missed values. Afterwards, these missing points are imputed with general mean, column mean, row mean, and predicted values from decision tree. Results: Performance loss due to missing data is valid and correlated with the ratio of the missing data. Among the imputation methods, decision tree based imputation technique was distinguished by its success for contributing and overcoming the missing data issue. Column and row mean imputation methods showed a similar pattern where general mean imputation was the most different of all since it showed almost an exponential increment in evaluation metrics. Conclusion: This study showed the effects of missing data to the multitask model and it can give approximately the ratio of missing data required to train a machine learning algorihm.
Benzer Tezler
- Predictions of genetic merit in tree breeding using factor analytic linear mixed models and blended genomic relationship matrices
Başlık çevirisi yok
FUNDA ÖĞÜT
Doktora
İngilizce
2012
Ormancılık ve Orman MühendisliğiNorth Carolina State UniversityDR. FİKRET IŞIK
DR. ROSS WHETTEN
- Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi
Analyzing the performance of classification methods using generated and real datasets
ÇİĞDEM KADAİFÇİ YANMAZ
Yüksek Lisans
Türkçe
2024
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Short-term wind power generation forecasting by coupling numerical weather prediction models and machine learning algorithms
Sayısal hava tahmin modeli ve makine öğrenmesi algoritmaları ile kısa dönemli rüzgar enerjisi üretim tahmin modeli oluşturmak
CEM ÖZEN
Doktora
İngilizce
2022
Enerjiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ DENİZ
- Makine öğrenmesi yöntemleri ile demans tahmini
Prediction of dementia by machine learning methods
TUĞBA TUNA
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. FETHİYE AYLİN SUNGUR
PROF. DR. MUSTAFA ERSEL KAMAŞAK
- Satış adedini etkileyen değişkenlerin keşfi ve duyarlılık analizi uygulaması: E-ticaret örneği
Discovery of variables affecting the number of sales and application of sensitivity analysis: E-commerce example
RABİA AYDIN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. FETHİ ÇALIŞIR