Geri Dön

Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi

Diagnosis of diabetes disease using machine learning methods in an imbalanced diabetes dataset

  1. Tez No: 790421
  2. Yazar: İSMAİL BUĞRA BÖLÜKBAŞI
  3. Danışmanlar: PROF. DR. BETÜL YAĞMAHAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Bursa Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 100

Özet

Dünya Sağlık Örgütü (DSÖ) verilerine göre diyabet hastalığına sahip kişi sayısı son zamanlarda ciddi bir artış göstermektedir. Diyabet hastalığı eğer gerekli tedbirler alınmazsa ilerleyen zamanlarda vücutta kalıcı hasarlara yol açan, hatta kişinin ölümüne neden olabilecek çok önemli bir hastalıktır. Tüm bu sebeplerden dolayı diyabet hastalığının erken ve doğru şekilde tespiti için tıp dünyasındaki çalışmaların hızla arttığı görülmektedir. Bu çalışmada tip-2 diyabet hastalığının teşhisi için gerçek hayattaki bir veri setinin analizinde, makine öğrenimi yöntemlerinden biri olan sınıflandırma yöntemi kullanılmıştır. Çalışmanın amacı, iki farklı veri bölme tekniği, üç farklı yeniden örnekleme tekniği ve altı farklı sınıflandırma yöntemi kullanarak diyabet teşhisinin en doğru şekilde sınıflandırılmasıdır. Bu çalışmada sınıflandırma modelleri KNIME programında oluşturulmuştur. Veri seti eğitim ve test verisi olarak ayrıştırılırken yüzdesel bölme (%70-30) ve k-katlı (k=5) çapraz doğrulama teknikleri kullanılmıştır. Diyabet veri setindeki sınıf dengesizliğinin giderilmesi için rastgele örneklem azaltma (RUS), rastgele aşırı örnekleme (ROS) ve sentetik azınlık aşırı örnekleme (SMOTE) tekniklerinden yararlanılmıştır. Çalışmada kullanılan sınıflandırma yöntemleri lojistik regresyon (LR), naive bayes (NB), k-en yakın komşu (k-EYK), C4.5 algoritması, rastgele orman (RO) ve çok katmanlı algılayıcıdır (ÇKA). Veri bölme tekniği, yeniden örnekleme tekniği ve sınıflandırma yöntemleri ile yapılan kombinasyonlar sonucunda 48 farklı senaryo incelenmiştir. Tüm senaryolar doğruluk, kesinlik, duyarlılık, ortalama F-ölçütü, kappa istatistiği ve AUC değeri ölçütlerine göre karşılaştırılmıştır. Yapılan deneysel çalışmalar sonucunda yüzdesel bölme ile oluşturulan senaryolar arasında en iyi sonucu %99,26 doğruluk değeriyle RUS-RO, en kötü sonucu ise %80,74 doğruluk değeriyle SMOTE-k-EYK vermiştir. K-katlı çapraz doğrulama ile oluşturulan senaryolar arasında en iyi sonucu %97,55 doğruluk değeri ile RUS-C4.5, ROS-RO ve SMOTE-RO, en kötü sonucu ise %78,62 doğruluk değeriyle RUS-EYK vermiştir.

Özet (Çeviri)

According to the data of the World Health Organization (WHO), the number of people with diabetes has increased significantly in recent years. Diabetes is a very important disease that can lead to permanent damage to the body and even death of the person in the future if the necessary precautions are not taken. For all these reasons, it is seen that studies in the medical world are increasing rapidly for the early and accurate diagnosis of diabetes. In this study, the classification method, one of the machine learning methods, was used in analyzing a real-life dataset for the purpose of diagnosing type-2 diabetes. The aim of the study is the most accurate classification of the diagnosis of diabetes using two different data-splitting techniques, three different resampling techniques, and six different classification methods. In this study, classification models were created in the software KNIME. Percentage split (70-30%) and k-fold (k=5) cross-validation techniques were used when separating the data set as training and test data. Random undersampling (RUS), random oversampling (ROS), and synthetic minority oversampling (SMOTE) techniques were used to eliminate the class imbalance in the diabetes dataset. The classification methods used in the study are logistic regression (LR), naive bayes (NB), k-nearest neighbor (k-NN), C4.5 algorithm, random forest (RF), and multilayer perceptron (MLP). As a result of combinations with data-splitting techniques, resampling techniques, and classification methods, 48 different scenarios were examined. All scenarios were compared according to criteria of accuracy, precision, recall, average F-measure, kappa statistic, and AUC value. As a result of the experimental studies, among the scenarios created with percentage split, RUS-RF gave the best result with an accuracy value of 99.26%, and SMOTE-k-NN gave the worst result with an accuracy value of 80.74%. Among the scenarios created with k-fold cross-validation, RUS-C4.5, ROS-RF, and SMOTE-RF gave the best result with an accuracy value of 97.55%, and RUS-k-NN gave the worst result with an accuracy value of 78.62%.

Benzer Tezler

  1. Erken dönem diyabet riskinin makine öğrenmesi ve istatistiksel yöntemlerle tahmini

    Prediction of early-stage diabetes risk with machine learning and statistical techniques

    YUSUF HALLAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SİNAN ÇALIK

  2. Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji

    A novel hybrid methodology based on clustering for classification with imbalance datasets

    ABDULLAH MARAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROL

  3. Diyabetli hastalarda hipoglisemi tutum ve davranış ölçeği'nin (Habs) Türkçe geçerlilik ve güvenirlilik çalışması'nın yapılması ve beslenme alışkanlıkları ile ilişkisi

    The Turkish validity and reliability study of hypoglycemic attitudes and behavior scale (Habs) in diabetic patients and relationship with nutritional habits

    GİZEM UZLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Beslenme ve Diyetetikİstanbul Bilgi Üniversitesi

    Beslenme ve Diyetetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HALİME PULAT DEMİR

  4. Data mining applications for sustainable medical systems: A study on diabetes

    Sürdürülebilir tıbbı sistemler için veri madenciliği uygulamaları: Diyabet üzerine bir çalışma

    ÖZGE ÖZYAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Endüstri ve Endüstri MühendisliğiMarmara Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SENİYE ÜMİT FIRAT

  5. Tip 2 diyabet mellitus hastalarının cepten sağlık ödeme maliyetlerinin belirlenmesi üzerine bir araştırma

    A study on the determination of out-of-pocket healthcare costs of TYPE 2 diabetes mellitus patients

    MUSTAFA KAFES

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    EkonomiNecmettin Erbakan Üniversitesi

    Sağlık Yönetimi Ana Bilim Dalı

    DOÇ. DR. ŞERİFE DİDEM KAYA