Geri Dön

Effects of missing data on tree based ensemble multitask learning method

Başlık çevirisi mevcut değil.

  1. Tez No: 714498
  2. Yazar: HASAN CAN KARAPINAR
  3. Danışmanlar: Belirtilmemiş.
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: The University of Sheffield
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 51

Özet

Özet yok.

Özet (Çeviri)

Background: The missing data issue is a common problem in the world of data mining and machine learning. The effect of the missing data is known, yet there are not much knowledge explains the magnitude of the performance loss. Aims: This study aimed to investigate the performance loss occurred in tree based ensembled multitask method by comparing the imputation methods. Methods: Tree based ensemble multitask learning models were developed and trained with the data that consists of the percent inhibition values between biological targets and molecules. The variables in the training data were deleted iteratively for representing a data set with missed values. Afterwards, these missing points are imputed with general mean, column mean, row mean, and predicted values from decision tree. Results: Performance loss due to missing data is valid and correlated with the ratio of the missing data. Among the imputation methods, decision tree based imputation technique was distinguished by its success for contributing and overcoming the missing data issue. Column and row mean imputation methods showed a similar pattern where general mean imputation was the most different of all since it showed almost an exponential increment in evaluation metrics. Conclusion: This study showed the effects of missing data to the multitask model and it can give approximately the ratio of missing data required to train a machine learning algorihm.

Benzer Tezler

  1. Sınıflandırma yöntemlerinin performansının üretilmiş ve gerçek veri setleri kullanılarak incelenmesi

    Analyzing the performance of classification methods using generated and real datasets

    ÇİĞDEM KADAİFÇİ YANMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. EYLEM DENİZ HOWE

  2. Short-term wind power generation forecasting by coupling numerical weather prediction models and machine learning algorithms

    Sayısal hava tahmin modeli ve makine öğrenmesi algoritmaları ile kısa dönemli rüzgar enerjisi üretim tahmin modeli oluşturmak

    CEM ÖZEN

    Doktora

    İngilizce

    İngilizce

    2022

    Enerjiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ DENİZ

  3. Makine öğrenmesi yöntemleri ile demans tahmini

    Prediction of dementia by machine learning methods

    TUĞBA TUNA

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. FETHİYE AYLİN SUNGUR

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

  4. Satış adedini etkileyen değişkenlerin keşfi ve duyarlılık analizi uygulaması: E-ticaret örneği

    Discovery of variables affecting the number of sales and application of sensitivity analysis: E-commerce example

    RABİA AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. FETHİ ÇALIŞIR