Balina optimizasyonu algoritması ve rastgele alt uzaylar temelli eksik veri tamamlama yöntemleri
Missing data imputation methods based on whale optimization algorithm and random subspaces
- Tez No: 688170
- Danışmanlar: DOÇ. DR. ZEHRA KAMIŞLI ÖZTÜRK
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 124
Özet
Eksik veri problemi, gerçek hayat veri setlerini kullanarak veri analitikleri yardımıyla katma değer yaratmaya çalışan araştırmacılar için kaçınılmaz ve istenmeyen bir sorundur. Özelikle elektronik sağlık kayıtlarında %80 gibi yüksek oranda bulunan eksik veri, tıbbi tahmin analitiklerinin tahmin başarısını doğrudan etkilemektedir. Bu nedenle eksik veri doğru bir şekilde analiz edilmeli ve ele alınmalıdır. Ancak,“No free lunch”teorisine uygun olarak tüm veri setlerinde ve tahmin algoritmalarında en iyi sonucu veren bir eksik veri ele alma yöntemi yoktur. Araştırmacılar eksik veriyi ele almak için yeni yöntemler önermeye devam etmektedir. Bu çalışma kapsamında da tıbbi tahmin analitikleri özelinde eksik veri problemi ele alınmış ve yeni eksik veri ele alma yöntemleri literatüre kazandırılmıştır. Sınıflandırıcı başarısını en büyüklemeyi amaçlayan Balina Optimizasyonu Algoritması (BOA) eksik veri tamamlama yöntemi olarak sunulmuştur. Yapılan deneylerle, BOA eksik veri tamamlama yöntemi Parçacık Sürü Optimizasyonu ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. BOA sınıflandırıcı tahmin başarısı açısından diğer yöntemlere göre daha iyi sonuç vermiştir. Ayrıca, rasgele alt uzaylar kolektif öğrenme stratejisi eksik veri tamamlama problemleri için uyarlanmış ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. Sınıflandırıcı tahmin başarısı açısından rasgele alt uzaylar kolektif öğrenme eksik veri tamamlama yöntemlerinin literatürle rekabet edebildiği ve gelişime açık olduğu sonucuna varılmıştır. Ek olarak, eksik veriyi dahili olarak ele alabilen XGBoost (Ekstrem Gradyan Artırma (XGBoost: Extreme Gradient Boosting)) algoritmasının eksik veriyi ele alma stratejisinin etkinliği eksik veri tamamlama yöntemleri ile karşılaştırılmış ve analiz edilmiştir. Eksik veri varlığında öznitelik seçimi süreci için rasgele alt uzaylar temelli üç farklı gömülü öznitelik seçim yöntemi ve çok amaçlı BOA sarmal öznitelik seçim yöntemi önerilmiştir. Gerçek hayat uygulaması olarak, Medical Information Mart for Intensive Care-III (MIMIC-III) veri seti üzerinde geliştirilen yoğun bakım ünitelerindeki mortalite ve kalış süresi tahmininde önerilen eksik veriyi ele alma yöntemleri uygulanmış ve sonuçlar literatürdeki çalışmalarla kıyaslanmıştır. BOA ile eksik veri tamamlama işleminden sonra elde edilen XGBoost sınıflandırıcısının tahmin başarısı mortalite tahmini için literatürdeki tahmin başarılarını geçmiştir. Eksik veri içeren veri setine uygulanan XGBoost sınıflandırıcısının tahmin başarısı ise kalış süresi tahmini için literatürdeki tahmin başarılarını geçmiştir.
Özet (Çeviri)
The missing data problem is an unavoidable and undesirable problem for researchers trying to create added value with the help of data analytics using real-life datasets. Missing data, which is found at a high rate of 80%, especially in electronic health records, affects the prediction success of predictive medical analytics. Therefore, missing data should be analyzed appropriately and handled. However, by the“No free lunch”theory, there is no missing data handling method that gives the best results in all data sets and machine learning algorithms. Therefore, researchers continue to present new methods for missing data handling. In this study, missing data in medical prediction analytics has been addressed, and new missing data handling methods have been added to the literature. The Whale Optimization Algorithm (WOA), which aims to maximize the classifier prediction success, is presented as a missing data imputation method and compared with Particle Swarm Optimization and commonly used missing data imputation methods with experiments. The WOA gave better results than other methods in terms of classifier prediction success. In addition, the random subspaces ensemble learning strategy is adapted for missing data imputation, and the results are compared with commonly used missing data imputation methods and literature. In terms of classifier prediction success, random subspace ensemble learning missing data imputation methods could compete with the literature and are open to improvement. In addition, the performance of the XGBoost (Extreme Gradient Boosting (XGBoost: Extreme Gradient Boosting)) algorithm, which can handle missing data internally, was compared with the missing data imputation methods and analyzed. Three different embedded feature selection methods based on random subspaces and the Multi-Objective WOA wrapper feature selection methods are proposed for the feature selection process in the presence of missing data. As a real-life application, the presented missing data imputation methods were applied to predict mortality and length of stay in intensive care units, which developed on the Medical Information Mart for Intensive Care-III (MIMIC-III) data. The prediction success of the XGBoost classifier obtained after missing data imputation with BOA exceeded the prediction successes in the literature for mortality prediction. Furthermore, the prediction success of the XGBoost classifier applied to the data set with missing data exceeded the prediction successes in the literature for the length of stay prediction.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Optimization in spatial planning from generative design approach: The application for Göktürk, Istanbul
Üretken tasarım yaklaşımıyla mekansal planlamada optimizasyon: Göktürk, İstanbul uygulaması
MERVE DENİZ TAK
Yüksek Lisans
İngilizce
2023
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. ALİYE AHU GÜLÜMSER
- Gri kurt meta-sezgisel algoritması ve rastgele orman sınıflandırma algoritmalarını birleştirerek koroner kalp hastalığı tanısının doğruluğunun artırılması
Improving the accuracy of diagnosis of coronary heart disease by combining gray wolf meta-heuristic algorithm and random forest classification algorithms
MAYSA KHODAYVERDIAN
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Medeniyet ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. NİHAT KABAOĞLU
- Aircraft detection from large scale remote sensing images with deep learning techniques
Büyük ölçekli uzaktan algılama görüntülerinden derin öğrenme teknikleriyle uçak tespiti
MEHMET SOYDAŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- Aerodynamic topology optimization of a radome using the genetic algorithm
Bir radomun genetik algoritma ile aerodinamik topoloji optimizasyonu
İLHANBERK DAYLAN
Yüksek Lisans
İngilizce
2020
Havacılık Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. MAHMUT ADİL YÜKSELEN