An imputation algorithm based on nature-inspired metaheuristic for missing values in the diabetes disease dataset
Başlık çevirisi mevcut değil.
- Tez No: 805893
- Danışmanlar: DR. ÖĞR. ÜYESİ TİMUR İNAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Altınbaş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 111
Özet
Tüm dünyada diyabet teşhisi konan insan sayısının artması nedeniyle önemi her geçen gün artan yeni bir araştırma konusu, hastalık için erken tahmin sistemleri tabanlı makine öğrenimi modelinin geliştirilmesidir. Genel olarak tıbbi veri kümelerindeki eksik değerlerin ve özel olarak diyabetik durumun komplikasyonları, makine öğrenimi modellerinin ve vaka incelemelerinin uğraşması gereken bir sorundur. İmputasyon Metodu tabanlı Gri Kurt Algoritması, bu araştırmanın bir parçası olarak geliştirilen ve GWO Algoritmasına (IGWO) dayalı yeni önerilen imputasyon algoritmasına verilen isimdir. Önerilen IGWO tekniği, değerlendirilebilmesi için uygunluk fonksiyonu olarak kullanılacak bir sınıflandırıcı gerektirir. Bu sınıflandırıcı, üretilen veri setinden mümkün olan en yüksek sınıflandırma doğruluğunu üretmeli ve bunu hedeflemelidir. Bu nedenle doğruluk, K-En Yakın Komşular (KNN), Destek Vektör Makinesi (SVM) ve Naive Bayes Sınıflandırıcı (NBC) olarak adlandırılan üç farklı sınıflandırıcı kullanılarak elde edilir. Pima Kızılderili Diyabet Hastalığı (PIDD), bu araştırmada eksik olan değerleri tahmin etmek ve IGWO'yu değerlendirmek için kullanılan birincil veri kümesidir. Önerilen yaklaşım, iki farklı deneye dayalı olarak değerlendirildi. Bunlardan ilki, oluşturulan veri kümelerini doğrulamak için k-katlı çapraz doğrulamadır (K=5). Buna karşılık, ikinci deneyde, sonuçları doğrulamak için uzatmalı doğrulama kullanılır ve oluşturulan veri kümesi bir eğitim seti (%65) ve bir test seti (%35) olarak ayrılır. Ortalama on çalıştırma süresine dayalı olarak, toplanan bulgular IGWO-SVM'nin en yüksek, IGWO-NBC'nin ise en düşük sırada yer aldığını ortaya koydu. Buna ek olarak, tüm sınıflandırıcılarla birlikte IGWO, öne çıkan dört yaklaşımla karşılaştırıldığında en iyi doğruluklara sahipti; bu, bir değerlendirme prosedürü olarak optimizasyon algoritmasının bu araştırmada kullanılan istatistiksel yöntemlerden üstün olduğunu gösterdi. Sonuç olarak, GWO algoritması genel olarak PIDD'deki ve tıbbi veri kümelerindeki kayıp değerleri tahmin etmek için kullanılma potansiyeline sahiptir.
Özet (Çeviri)
A new topic of research, one that is growing in importance on a daily basis due to the rising number of people being diagnosed with diabetes all over the world, is the development of an early prediction systems-based machine learning model for the disease. The complications of missing values in medical datasets in general, and the diabetic condition in particular, is one that machine learning models and case studies have to deal with. Imputation Method based Grey Wolf Algorithm is the name given to the newly proposed imputation algorithm that was developed as part of this research and is based on the GWO Algorithm (IGWO). The suggested IGWO technique requires a classifier to be used as a fitness function in order to be evaluated. This classifier should produce the highest possible classification accuracy from the dataset that is generated and should aim to do so. Therefore, the accuracy is achieved by utilizing three distinct classifiers, which are referred to as K-Nearest Neighbors (KNN), Support Vector Machine (SVM), and Naive Bayesian Classifier (NBC). Pima Indian Diabetes Disease (PIDD) is the primary dataset that was utilized in this investigation to estimate the values that were missing and to assess IGWO. The suggested approach was evaluated based on two distinct experiments. The first of which is k-fold cross validation (K=5) to validate the datasets that were generated. In contrast, in the second experiment, holdout validation is used to validate the results, and the created dataset is split into a training set (65%) and a testing set (35%). Based on the average of ten run times, the findings that were collected revealed that the IGWO-SVM was ranked the highest, while the IGWO-NBC ranked the lowest. In addition to this, IGWO with all classifiers had the best accuracies when compared to the four prominent approaches, which demonstrated that the optimization algorithm as an imputation procedure is superior to the statistical methods utilized in this research. In conclusion, the GWO algorithm has the potential to be utilized for estimating missing values in PIDD and medical datasets in general.
Benzer Tezler
- Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi
Developing a new approach to feature selection with metaheuristic methods for large scale data
ESİN AYŞE ZAİMOĞLU
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Yazılım projelerinin optimizasyon problemi olarak incelenmesi ve genetik algoritma ile çözümü
An optimization model and genetic algorithm solution for software projects
YÜCEL DİL
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA CEM KASAPBAŞI
- Short-term wind power generation forecasting by coupling numerical weather prediction models and machine learning algorithms
Sayısal hava tahmin modeli ve makine öğrenmesi algoritmaları ile kısa dönemli rüzgar enerjisi üretim tahmin modeli oluşturmak
CEM ÖZEN
Doktora
İngilizce
2022
Enerjiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ DENİZ
- Yapay zekâ bağlamında dil ve zekâ ilişkisi üzerine bir inceleme
A review on language and intelligence in the context of artificial intelligence
KÜBRA KAYA
Yüksek Lisans
Türkçe
2023
FelsefeVan Yüzüncü Yıl ÜniversitesiFelsefe Ana Bilim Dalı
PROF. DR. AHMET EYİM
- Balina optimizasyonu algoritması ve rastgele alt uzaylar temelli eksik veri tamamlama yöntemleri
Missing data imputation methods based on whale optimization algorithm and random subspaces
ZELİHA ERGÜL AYDIN
Doktora
Türkçe
2021
Endüstri ve Endüstri MühendisliğiEskişehir Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA KAMIŞLI ÖZTÜRK