Geri Dön

An imputation algorithm based on nature-inspired metaheuristic for missing values in the diabetes disease dataset

Başlık çevirisi mevcut değil.

  1. Tez No: 805893
  2. Yazar: ANAS MUDHAFAR AHMED AHMED
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TİMUR İNAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Altınbaş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 111

Özet

Tüm dünyada diyabet teşhisi konan insan sayısının artması nedeniyle önemi her geçen gün artan yeni bir araştırma konusu, hastalık için erken tahmin sistemleri tabanlı makine öğrenimi modelinin geliştirilmesidir. Genel olarak tıbbi veri kümelerindeki eksik değerlerin ve özel olarak diyabetik durumun komplikasyonları, makine öğrenimi modellerinin ve vaka incelemelerinin uğraşması gereken bir sorundur. İmputasyon Metodu tabanlı Gri Kurt Algoritması, bu araştırmanın bir parçası olarak geliştirilen ve GWO Algoritmasına (IGWO) dayalı yeni önerilen imputasyon algoritmasına verilen isimdir. Önerilen IGWO tekniği, değerlendirilebilmesi için uygunluk fonksiyonu olarak kullanılacak bir sınıflandırıcı gerektirir. Bu sınıflandırıcı, üretilen veri setinden mümkün olan en yüksek sınıflandırma doğruluğunu üretmeli ve bunu hedeflemelidir. Bu nedenle doğruluk, K-En Yakın Komşular (KNN), Destek Vektör Makinesi (SVM) ve Naive Bayes Sınıflandırıcı (NBC) olarak adlandırılan üç farklı sınıflandırıcı kullanılarak elde edilir. Pima Kızılderili Diyabet Hastalığı (PIDD), bu araştırmada eksik olan değerleri tahmin etmek ve IGWO'yu değerlendirmek için kullanılan birincil veri kümesidir. Önerilen yaklaşım, iki farklı deneye dayalı olarak değerlendirildi. Bunlardan ilki, oluşturulan veri kümelerini doğrulamak için k-katlı çapraz doğrulamadır (K=5). Buna karşılık, ikinci deneyde, sonuçları doğrulamak için uzatmalı doğrulama kullanılır ve oluşturulan veri kümesi bir eğitim seti (%65) ve bir test seti (%35) olarak ayrılır. Ortalama on çalıştırma süresine dayalı olarak, toplanan bulgular IGWO-SVM'nin en yüksek, IGWO-NBC'nin ise en düşük sırada yer aldığını ortaya koydu. Buna ek olarak, tüm sınıflandırıcılarla birlikte IGWO, öne çıkan dört yaklaşımla karşılaştırıldığında en iyi doğruluklara sahipti; bu, bir değerlendirme prosedürü olarak optimizasyon algoritmasının bu araştırmada kullanılan istatistiksel yöntemlerden üstün olduğunu gösterdi. Sonuç olarak, GWO algoritması genel olarak PIDD'deki ve tıbbi veri kümelerindeki kayıp değerleri tahmin etmek için kullanılma potansiyeline sahiptir.

Özet (Çeviri)

A new topic of research, one that is growing in importance on a daily basis due to the rising number of people being diagnosed with diabetes all over the world, is the development of an early prediction systems-based machine learning model for the disease. The complications of missing values in medical datasets in general, and the diabetic condition in particular, is one that machine learning models and case studies have to deal with. Imputation Method based Grey Wolf Algorithm is the name given to the newly proposed imputation algorithm that was developed as part of this research and is based on the GWO Algorithm (IGWO). The suggested IGWO technique requires a classifier to be used as a fitness function in order to be evaluated. This classifier should produce the highest possible classification accuracy from the dataset that is generated and should aim to do so. Therefore, the accuracy is achieved by utilizing three distinct classifiers, which are referred to as K-Nearest Neighbors (KNN), Support Vector Machine (SVM), and Naive Bayesian Classifier (NBC). Pima Indian Diabetes Disease (PIDD) is the primary dataset that was utilized in this investigation to estimate the values that were missing and to assess IGWO. The suggested approach was evaluated based on two distinct experiments. The first of which is k-fold cross validation (K=5) to validate the datasets that were generated. In contrast, in the second experiment, holdout validation is used to validate the results, and the created dataset is split into a training set (65%) and a testing set (35%). Based on the average of ten run times, the findings that were collected revealed that the IGWO-SVM was ranked the highest, while the IGWO-NBC ranked the lowest. In addition to this, IGWO with all classifiers had the best accuracies when compared to the four prominent approaches, which demonstrated that the optimization algorithm as an imputation procedure is superior to the statistical methods utilized in this research. In conclusion, the GWO algorithm has the potential to be utilized for estimating missing values in PIDD and medical datasets in general.

Benzer Tezler

  1. Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi

    Developing a new approach to feature selection with metaheuristic methods for large scale data

    ESİN AYŞE ZAİMOĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NİLÜFER YURTAY

  2. Yazılım projelerinin optimizasyon problemi olarak incelenmesi ve genetik algoritma ile çözümü

    An optimization model and genetic algorithm solution for software projects

    YÜCEL DİL

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MUSTAFA CEM KASAPBAŞI

  3. Short-term wind power generation forecasting by coupling numerical weather prediction models and machine learning algorithms

    Sayısal hava tahmin modeli ve makine öğrenmesi algoritmaları ile kısa dönemli rüzgar enerjisi üretim tahmin modeli oluşturmak

    CEM ÖZEN

    Doktora

    İngilizce

    İngilizce

    2022

    Enerjiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ DENİZ

  4. Yapay zekâ bağlamında dil ve zekâ ilişkisi üzerine bir inceleme

    A review on language and intelligence in the context of artificial intelligence

    KÜBRA KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    FelsefeVan Yüzüncü Yıl Üniversitesi

    Felsefe Ana Bilim Dalı

    PROF. DR. AHMET EYİM

  5. Balina optimizasyonu algoritması ve rastgele alt uzaylar temelli eksik veri tamamlama yöntemleri

    Missing data imputation methods based on whale optimization algorithm and random subspaces

    ZELİHA ERGÜL AYDIN

    Doktora

    Türkçe

    Türkçe

    2021

    Endüstri ve Endüstri MühendisliğiEskişehir Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEHRA KAMIŞLI ÖZTÜRK