Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi

Diagnosis of diabetes disease using machine learning methods in an imbalanced diabetes dataset

PDF İndir

Tez No: 790421
Yazar: İSMAİL BUĞRA BÖLÜKBAŞI
Danışmanlar: PROF. DR. BETÜL YAĞMAHAN
Tez Türü: Yüksek Lisans
Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Bursa Uludağ Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 100

Özet

Dünya Sağlık Örgütü (DSÖ) verilerine göre diyabet hastalığına sahip kişi sayısı son zamanlarda ciddi bir artış göstermektedir. Diyabet hastalığı eğer gerekli tedbirler alınmazsa ilerleyen zamanlarda vücutta kalıcı hasarlara yol açan, hatta kişinin ölümüne neden olabilecek çok önemli bir hastalıktır. Tüm bu sebeplerden dolayı diyabet hastalığının erken ve doğru şekilde tespiti için tıp dünyasındaki çalışmaların hızla arttığı görülmektedir. Bu çalışmada tip-2 diyabet hastalığının teşhisi için gerçek hayattaki bir veri setinin analizinde, makine öğrenimi yöntemlerinden biri olan sınıflandırma yöntemi kullanılmıştır. Çalışmanın amacı, iki farklı veri bölme tekniği, üç farklı yeniden örnekleme tekniği ve altı farklı sınıflandırma yöntemi kullanarak diyabet teşhisinin en doğru şekilde sınıflandırılmasıdır. Bu çalışmada sınıflandırma modelleri KNIME programında oluşturulmuştur. Veri seti eğitim ve test verisi olarak ayrıştırılırken yüzdesel bölme (%70-30) ve k-katlı (k=5) çapraz doğrulama teknikleri kullanılmıştır. Diyabet veri setindeki sınıf dengesizliğinin giderilmesi için rastgele örneklem azaltma (RUS), rastgele aşırı örnekleme (ROS) ve sentetik azınlık aşırı örnekleme (SMOTE) tekniklerinden yararlanılmıştır. Çalışmada kullanılan sınıflandırma yöntemleri lojistik regresyon (LR), naive bayes (NB), k-en yakın komşu (k-EYK), C4.5 algoritması, rastgele orman (RO) ve çok katmanlı algılayıcıdır (ÇKA). Veri bölme tekniği, yeniden örnekleme tekniği ve sınıflandırma yöntemleri ile yapılan kombinasyonlar sonucunda 48 farklı senaryo incelenmiştir. Tüm senaryolar doğruluk, kesinlik, duyarlılık, ortalama F-ölçütü, kappa istatistiği ve AUC değeri ölçütlerine göre karşılaştırılmıştır. Yapılan deneysel çalışmalar sonucunda yüzdesel bölme ile oluşturulan senaryolar arasında en iyi sonucu %99,26 doğruluk değeriyle RUS-RO, en kötü sonucu ise %80,74 doğruluk değeriyle SMOTE-k-EYK vermiştir. K-katlı çapraz doğrulama ile oluşturulan senaryolar arasında en iyi sonucu %97,55 doğruluk değeri ile RUS-C4.5, ROS-RO ve SMOTE-RO, en kötü sonucu ise %78,62 doğruluk değeriyle RUS-EYK vermiştir.

Özet (Çeviri)

According to the data of the World Health Organization (WHO), the number of people with diabetes has increased significantly in recent years. Diabetes is a very important disease that can lead to permanent damage to the body and even death of the person in the future if the necessary precautions are not taken. For all these reasons, it is seen that studies in the medical world are increasing rapidly for the early and accurate diagnosis of diabetes. In this study, the classification method, one of the machine learning methods, was used in analyzing a real-life dataset for the purpose of diagnosing type-2 diabetes. The aim of the study is the most accurate classification of the diagnosis of diabetes using two different data-splitting techniques, three different resampling techniques, and six different classification methods. In this study, classification models were created in the software KNIME. Percentage split (70-30%) and k-fold (k=5) cross-validation techniques were used when separating the data set as training and test data. Random undersampling (RUS), random oversampling (ROS), and synthetic minority oversampling (SMOTE) techniques were used to eliminate the class imbalance in the diabetes dataset. The classification methods used in the study are logistic regression (LR), naive bayes (NB), k-nearest neighbor (k-NN), C4.5 algorithm, random forest (RF), and multilayer perceptron (MLP). As a result of combinations with data-splitting techniques, resampling techniques, and classification methods, 48 different scenarios were examined. All scenarios were compared according to criteria of accuracy, precision, recall, average F-measure, kappa statistic, and AUC value. As a result of the experimental studies, among the scenarios created with percentage split, RUS-RF gave the best result with an accuracy value of 99.26%, and SMOTE-k-NN gave the worst result with an accuracy value of 80.74%. Among the scenarios created with k-fold cross-validation, RUS-C4.5, ROS-RF, and SMOTE-RF gave the best result with an accuracy value of 97.55%, and RUS-k-NN gave the worst result with an accuracy value of 78.62%.

Benzer Tezler

Tez No
856507
Erken dönem diyabet riskinin makine öğrenmesi ve istatistiksel yöntemlerle tahmini
Prediction of early-stage diabetes risk with machine learning and statistical techniques
YUSUF HALLAÇ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. SİNAN ÇALIK
Tez No
942634
Derin öğrenme ile diyabetik retinopati tespiti
Diabetic retinopathy detection with deep learning
OSMAN ÖZDEMİR
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Konya Teknik Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. RAHİME CEYLAN
Tez No
781209
Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji
A novel hybrid methodology based on clustering for classification with imbalance datasets
ABDULLAH MARAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
Tez No
569237
Diyabetli hastalarda hipoglisemi tutum ve davranış ölçeği'nin (Habs) Türkçe geçerlilik ve güvenirlilik çalışması'nın yapılması ve beslenme alışkanlıkları ile ilişkisi
The Turkish validity and reliability study of hypoglycemic attitudes and behavior scale (Habs) in diabetic patients and relationship with nutritional habits
GİZEM UZLU
Yüksek Lisans
Türkçe
2019
Beslenme ve Diyetetik İstanbul Bilgi Üniversitesi
Beslenme ve Diyetetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALİME PULAT DEMİR
Tez No
571057
Data mining applications for sustainable medical systems: A study on diabetes
Sürdürülebilir tıbbı sistemler için veri madenciliği uygulamaları: Diyabet üzerine bir çalışma
ÖZGE ÖZYAZAR
Yüksek Lisans
İngilizce
2019
Endüstri ve Endüstri Mühendisliği Marmara Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SENİYE ÜMİT FIRAT

Geri Dön