Geri Dön

Balina optimizasyonu algoritması ve rastgele alt uzaylar temelli eksik veri tamamlama yöntemleri

Missing data imputation methods based on whale optimization algorithm and random subspaces

  1. Tez No: 688170
  2. Yazar: ZELİHA ERGÜL AYDIN
  3. Danışmanlar: DOÇ. DR. ZEHRA KAMIŞLI ÖZTÜRK
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 124

Özet

Eksik veri problemi, gerçek hayat veri setlerini kullanarak veri analitikleri yardımıyla katma değer yaratmaya çalışan araştırmacılar için kaçınılmaz ve istenmeyen bir sorundur. Özelikle elektronik sağlık kayıtlarında %80 gibi yüksek oranda bulunan eksik veri, tıbbi tahmin analitiklerinin tahmin başarısını doğrudan etkilemektedir. Bu nedenle eksik veri doğru bir şekilde analiz edilmeli ve ele alınmalıdır. Ancak,“No free lunch”teorisine uygun olarak tüm veri setlerinde ve tahmin algoritmalarında en iyi sonucu veren bir eksik veri ele alma yöntemi yoktur. Araştırmacılar eksik veriyi ele almak için yeni yöntemler önermeye devam etmektedir. Bu çalışma kapsamında da tıbbi tahmin analitikleri özelinde eksik veri problemi ele alınmış ve yeni eksik veri ele alma yöntemleri literatüre kazandırılmıştır. Sınıflandırıcı başarısını en büyüklemeyi amaçlayan Balina Optimizasyonu Algoritması (BOA) eksik veri tamamlama yöntemi olarak sunulmuştur. Yapılan deneylerle, BOA eksik veri tamamlama yöntemi Parçacık Sürü Optimizasyonu ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. BOA sınıflandırıcı tahmin başarısı açısından diğer yöntemlere göre daha iyi sonuç vermiştir. Ayrıca, rasgele alt uzaylar kolektif öğrenme stratejisi eksik veri tamamlama problemleri için uyarlanmış ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. Sınıflandırıcı tahmin başarısı açısından rasgele alt uzaylar kolektif öğrenme eksik veri tamamlama yöntemlerinin literatürle rekabet edebildiği ve gelişime açık olduğu sonucuna varılmıştır. Ek olarak, eksik veriyi dahili olarak ele alabilen XGBoost (Ekstrem Gradyan Artırma (XGBoost: Extreme Gradient Boosting)) algoritmasının eksik veriyi ele alma stratejisinin etkinliği eksik veri tamamlama yöntemleri ile karşılaştırılmış ve analiz edilmiştir. Eksik veri varlığında öznitelik seçimi süreci için rasgele alt uzaylar temelli üç farklı gömülü öznitelik seçim yöntemi ve çok amaçlı BOA sarmal öznitelik seçim yöntemi önerilmiştir. Gerçek hayat uygulaması olarak, Medical Information Mart for Intensive Care-III (MIMIC-III) veri seti üzerinde geliştirilen yoğun bakım ünitelerindeki mortalite ve kalış süresi tahmininde önerilen eksik veriyi ele alma yöntemleri uygulanmış ve sonuçlar literatürdeki çalışmalarla kıyaslanmıştır. BOA ile eksik veri tamamlama işleminden sonra elde edilen XGBoost sınıflandırıcısının tahmin başarısı mortalite tahmini için literatürdeki tahmin başarılarını geçmiştir. Eksik veri içeren veri setine uygulanan XGBoost sınıflandırıcısının tahmin başarısı ise kalış süresi tahmini için literatürdeki tahmin başarılarını geçmiştir.

Özet (Çeviri)

The missing data problem is an unavoidable and undesirable problem for researchers trying to create added value with the help of data analytics using real-life datasets. Missing data, which is found at a high rate of 80%, especially in electronic health records, affects the prediction success of predictive medical analytics. Therefore, missing data should be analyzed appropriately and handled. However, by the“No free lunch”theory, there is no missing data handling method that gives the best results in all data sets and machine learning algorithms. Therefore, researchers continue to present new methods for missing data handling. In this study, missing data in medical prediction analytics has been addressed, and new missing data handling methods have been added to the literature. The Whale Optimization Algorithm (WOA), which aims to maximize the classifier prediction success, is presented as a missing data imputation method and compared with Particle Swarm Optimization and commonly used missing data imputation methods with experiments. The WOA gave better results than other methods in terms of classifier prediction success. In addition, the random subspaces ensemble learning strategy is adapted for missing data imputation, and the results are compared with commonly used missing data imputation methods and literature. In terms of classifier prediction success, random subspace ensemble learning missing data imputation methods could compete with the literature and are open to improvement. In addition, the performance of the XGBoost (Extreme Gradient Boosting (XGBoost: Extreme Gradient Boosting)) algorithm, which can handle missing data internally, was compared with the missing data imputation methods and analyzed. Three different embedded feature selection methods based on random subspaces and the Multi-Objective WOA wrapper feature selection methods are proposed for the feature selection process in the presence of missing data. As a real-life application, the presented missing data imputation methods were applied to predict mortality and length of stay in intensive care units, which developed on the Medical Information Mart for Intensive Care-III (MIMIC-III) data. The prediction success of the XGBoost classifier obtained after missing data imputation with BOA exceeded the prediction successes in the literature for mortality prediction. Furthermore, the prediction success of the XGBoost classifier applied to the data set with missing data exceeded the prediction successes in the literature for the length of stay prediction.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Optimization in spatial planning from generative design approach: The application for Göktürk, Istanbul

    Üretken tasarım yaklaşımıyla mekansal planlamada optimizasyon: Göktürk, İstanbul uygulaması

    MERVE DENİZ TAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. ALİYE AHU GÜLÜMSER

  3. Gri kurt meta-sezgisel algoritması ve rastgele orman sınıflandırma algoritmalarını birleştirerek koroner kalp hastalığı tanısının doğruluğunun artırılması

    Improving the accuracy of diagnosis of coronary heart disease by combining gray wolf meta-heuristic algorithm and random forest classification algorithms

    MAYSA KHODAYVERDIAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Medeniyet Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. NİHAT KABAOĞLU

  4. Aircraft detection from large scale remote sensing images with deep learning techniques

    Büyük ölçekli uzaktan algılama görüntülerinden derin öğrenme teknikleriyle uçak tespiti

    MEHMET SOYDAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. ELİF SERTEL

  5. Aerodynamic topology optimization of a radome using the genetic algorithm

    Bir radomun genetik algoritma ile aerodinamik topoloji optimizasyonu

    İLHANBERK DAYLAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Havacılık Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. MAHMUT ADİL YÜKSELEN