An imputation algorithm based on nature-inspired metaheuristic for missing values in the diabetes disease dataset

Başlık çevirisi mevcut değil.

PDF İndir

Tez No: 805893
Yazar: ANAS MUDHAFAR AHMED AHMED
Danışmanlar: DR. ÖĞR. ÜYESİ TİMUR İNAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Altınbaş Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 111

Özet

Tüm dünyada diyabet teşhisi konan insan sayısının artması nedeniyle önemi her geçen gün artan yeni bir araştırma konusu, hastalık için erken tahmin sistemleri tabanlı makine öğrenimi modelinin geliştirilmesidir. Genel olarak tıbbi veri kümelerindeki eksik değerlerin ve özel olarak diyabetik durumun komplikasyonları, makine öğrenimi modellerinin ve vaka incelemelerinin uğraşması gereken bir sorundur. İmputasyon Metodu tabanlı Gri Kurt Algoritması, bu araştırmanın bir parçası olarak geliştirilen ve GWO Algoritmasına (IGWO) dayalı yeni önerilen imputasyon algoritmasına verilen isimdir. Önerilen IGWO tekniği, değerlendirilebilmesi için uygunluk fonksiyonu olarak kullanılacak bir sınıflandırıcı gerektirir. Bu sınıflandırıcı, üretilen veri setinden mümkün olan en yüksek sınıflandırma doğruluğunu üretmeli ve bunu hedeflemelidir. Bu nedenle doğruluk, K-En Yakın Komşular (KNN), Destek Vektör Makinesi (SVM) ve Naive Bayes Sınıflandırıcı (NBC) olarak adlandırılan üç farklı sınıflandırıcı kullanılarak elde edilir. Pima Kızılderili Diyabet Hastalığı (PIDD), bu araştırmada eksik olan değerleri tahmin etmek ve IGWO'yu değerlendirmek için kullanılan birincil veri kümesidir. Önerilen yaklaşım, iki farklı deneye dayalı olarak değerlendirildi. Bunlardan ilki, oluşturulan veri kümelerini doğrulamak için k-katlı çapraz doğrulamadır (K=5). Buna karşılık, ikinci deneyde, sonuçları doğrulamak için uzatmalı doğrulama kullanılır ve oluşturulan veri kümesi bir eğitim seti (%65) ve bir test seti (%35) olarak ayrılır. Ortalama on çalıştırma süresine dayalı olarak, toplanan bulgular IGWO-SVM'nin en yüksek, IGWO-NBC'nin ise en düşük sırada yer aldığını ortaya koydu. Buna ek olarak, tüm sınıflandırıcılarla birlikte IGWO, öne çıkan dört yaklaşımla karşılaştırıldığında en iyi doğruluklara sahipti; bu, bir değerlendirme prosedürü olarak optimizasyon algoritmasının bu araştırmada kullanılan istatistiksel yöntemlerden üstün olduğunu gösterdi. Sonuç olarak, GWO algoritması genel olarak PIDD'deki ve tıbbi veri kümelerindeki kayıp değerleri tahmin etmek için kullanılma potansiyeline sahiptir.

Özet (Çeviri)

A new topic of research, one that is growing in importance on a daily basis due to the rising number of people being diagnosed with diabetes all over the world, is the development of an early prediction systems-based machine learning model for the disease. The complications of missing values in medical datasets in general, and the diabetic condition in particular, is one that machine learning models and case studies have to deal with. Imputation Method based Grey Wolf Algorithm is the name given to the newly proposed imputation algorithm that was developed as part of this research and is based on the GWO Algorithm (IGWO). The suggested IGWO technique requires a classifier to be used as a fitness function in order to be evaluated. This classifier should produce the highest possible classification accuracy from the dataset that is generated and should aim to do so. Therefore, the accuracy is achieved by utilizing three distinct classifiers, which are referred to as K-Nearest Neighbors (KNN), Support Vector Machine (SVM), and Naive Bayesian Classifier (NBC). Pima Indian Diabetes Disease (PIDD) is the primary dataset that was utilized in this investigation to estimate the values that were missing and to assess IGWO. The suggested approach was evaluated based on two distinct experiments. The first of which is k-fold cross validation (K=5) to validate the datasets that were generated. In contrast, in the second experiment, holdout validation is used to validate the results, and the created dataset is split into a training set (65%) and a testing set (35%). Based on the average of ten run times, the findings that were collected revealed that the IGWO-SVM was ranked the highest, while the IGWO-NBC ranked the lowest. In addition to this, IGWO with all classifiers had the best accuracies when compared to the four prominent approaches, which demonstrated that the optimization algorithm as an imputation procedure is superior to the statistical methods utilized in this research. In conclusion, the GWO algorithm has the potential to be utilized for estimating missing values in PIDD and medical datasets in general.

Benzer Tezler

Tez No
806642
Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi
Developing a new approach to feature selection with metaheuristic methods for large scale data
ESİN AYŞE ZAİMOĞLU
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
Tez No
421355
Yazılım projelerinin optimizasyon problemi olarak incelenmesi ve genetik algoritma ile çözümü
An optimization model and genetic algorithm solution for software projects
YÜCEL DİL
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Ticaret Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA CEM KASAPBAŞI
Tez No
955401
Elektrikli araçların kullanıcı tercihlerine göre sınıflandırılması: hibrit bir yaklaşım
Classification of electric vehicles based on user preference: a hybrid approach
MEHMET DEMİR
Yüksek Lisans
Türkçe
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. UMUT ASAN
Tez No
746666
Short-term wind power generation forecasting by coupling numerical weather prediction models and machine learning algorithms
Sayısal hava tahmin modeli ve makine öğrenmesi algoritmaları ile kısa dönemli rüzgar enerjisi üretim tahmin modeli oluşturmak
CEM ÖZEN
Doktora
İngilizce
2022
Enerji İstanbul Teknik Üniversitesi
Meteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ DENİZ
Tez No
958897
Makine öğrenme algoritmalarıyla ülkelerin milli güç bağlamında sıralanmasına yönelik endeks önerisi
An index proposal for ranking countries in terms of national power using machine learning algorithms
SERDAR ÖZTÜRK
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İNCİ ZAİM GÖKBAY

Geri Dön