Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi
Diagnosis of diabetes disease using machine learning methods in an imbalanced diabetes dataset
- Tez No: 790421
- Danışmanlar: PROF. DR. BETÜL YAĞMAHAN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Bursa Uludağ Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Dünya Sağlık Örgütü (DSÖ) verilerine göre diyabet hastalığına sahip kişi sayısı son zamanlarda ciddi bir artış göstermektedir. Diyabet hastalığı eğer gerekli tedbirler alınmazsa ilerleyen zamanlarda vücutta kalıcı hasarlara yol açan, hatta kişinin ölümüne neden olabilecek çok önemli bir hastalıktır. Tüm bu sebeplerden dolayı diyabet hastalığının erken ve doğru şekilde tespiti için tıp dünyasındaki çalışmaların hızla arttığı görülmektedir. Bu çalışmada tip-2 diyabet hastalığının teşhisi için gerçek hayattaki bir veri setinin analizinde, makine öğrenimi yöntemlerinden biri olan sınıflandırma yöntemi kullanılmıştır. Çalışmanın amacı, iki farklı veri bölme tekniği, üç farklı yeniden örnekleme tekniği ve altı farklı sınıflandırma yöntemi kullanarak diyabet teşhisinin en doğru şekilde sınıflandırılmasıdır. Bu çalışmada sınıflandırma modelleri KNIME programında oluşturulmuştur. Veri seti eğitim ve test verisi olarak ayrıştırılırken yüzdesel bölme (%70-30) ve k-katlı (k=5) çapraz doğrulama teknikleri kullanılmıştır. Diyabet veri setindeki sınıf dengesizliğinin giderilmesi için rastgele örneklem azaltma (RUS), rastgele aşırı örnekleme (ROS) ve sentetik azınlık aşırı örnekleme (SMOTE) tekniklerinden yararlanılmıştır. Çalışmada kullanılan sınıflandırma yöntemleri lojistik regresyon (LR), naive bayes (NB), k-en yakın komşu (k-EYK), C4.5 algoritması, rastgele orman (RO) ve çok katmanlı algılayıcıdır (ÇKA). Veri bölme tekniği, yeniden örnekleme tekniği ve sınıflandırma yöntemleri ile yapılan kombinasyonlar sonucunda 48 farklı senaryo incelenmiştir. Tüm senaryolar doğruluk, kesinlik, duyarlılık, ortalama F-ölçütü, kappa istatistiği ve AUC değeri ölçütlerine göre karşılaştırılmıştır. Yapılan deneysel çalışmalar sonucunda yüzdesel bölme ile oluşturulan senaryolar arasında en iyi sonucu %99,26 doğruluk değeriyle RUS-RO, en kötü sonucu ise %80,74 doğruluk değeriyle SMOTE-k-EYK vermiştir. K-katlı çapraz doğrulama ile oluşturulan senaryolar arasında en iyi sonucu %97,55 doğruluk değeri ile RUS-C4.5, ROS-RO ve SMOTE-RO, en kötü sonucu ise %78,62 doğruluk değeriyle RUS-EYK vermiştir.
Özet (Çeviri)
According to the data of the World Health Organization (WHO), the number of people with diabetes has increased significantly in recent years. Diabetes is a very important disease that can lead to permanent damage to the body and even death of the person in the future if the necessary precautions are not taken. For all these reasons, it is seen that studies in the medical world are increasing rapidly for the early and accurate diagnosis of diabetes. In this study, the classification method, one of the machine learning methods, was used in analyzing a real-life dataset for the purpose of diagnosing type-2 diabetes. The aim of the study is the most accurate classification of the diagnosis of diabetes using two different data-splitting techniques, three different resampling techniques, and six different classification methods. In this study, classification models were created in the software KNIME. Percentage split (70-30%) and k-fold (k=5) cross-validation techniques were used when separating the data set as training and test data. Random undersampling (RUS), random oversampling (ROS), and synthetic minority oversampling (SMOTE) techniques were used to eliminate the class imbalance in the diabetes dataset. The classification methods used in the study are logistic regression (LR), naive bayes (NB), k-nearest neighbor (k-NN), C4.5 algorithm, random forest (RF), and multilayer perceptron (MLP). As a result of combinations with data-splitting techniques, resampling techniques, and classification methods, 48 different scenarios were examined. All scenarios were compared according to criteria of accuracy, precision, recall, average F-measure, kappa statistic, and AUC value. As a result of the experimental studies, among the scenarios created with percentage split, RUS-RF gave the best result with an accuracy value of 99.26%, and SMOTE-k-NN gave the worst result with an accuracy value of 80.74%. Among the scenarios created with k-fold cross-validation, RUS-C4.5, ROS-RF, and SMOTE-RF gave the best result with an accuracy value of 97.55%, and RUS-k-NN gave the worst result with an accuracy value of 78.62%.
Benzer Tezler
- Erken dönem diyabet riskinin makine öğrenmesi ve istatistiksel yöntemlerle tahmini
Prediction of early-stage diabetes risk with machine learning and statistical techniques
YUSUF HALLAÇ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. SİNAN ÇALIK
- Dengesiz veri kümeleriyle sınıflandırma için kümelemeye dayalı yeni bir hibrit metodoloji
A novel hybrid methodology based on clustering for classification with imbalance datasets
ABDULLAH MARAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
- Diyabetli hastalarda hipoglisemi tutum ve davranış ölçeği'nin (Habs) Türkçe geçerlilik ve güvenirlilik çalışması'nın yapılması ve beslenme alışkanlıkları ile ilişkisi
The Turkish validity and reliability study of hypoglycemic attitudes and behavior scale (Habs) in diabetic patients and relationship with nutritional habits
GİZEM UZLU
Yüksek Lisans
Türkçe
2019
Beslenme ve Diyetetikİstanbul Bilgi ÜniversitesiBeslenme ve Diyetetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALİME PULAT DEMİR
- Data mining applications for sustainable medical systems: A study on diabetes
Sürdürülebilir tıbbı sistemler için veri madenciliği uygulamaları: Diyabet üzerine bir çalışma
ÖZGE ÖZYAZAR
Yüksek Lisans
İngilizce
2019
Endüstri ve Endüstri MühendisliğiMarmara ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SENİYE ÜMİT FIRAT
- Tip 2 diyabet mellitus hastalarının cepten sağlık ödeme maliyetlerinin belirlenmesi üzerine bir araştırma
A study on the determination of out-of-pocket healthcare costs of TYPE 2 diabetes mellitus patients
MUSTAFA KAFES
Yüksek Lisans
Türkçe
2018
EkonomiNecmettin Erbakan ÜniversitesiSağlık Yönetimi Ana Bilim Dalı
DOÇ. DR. ŞERİFE DİDEM KAYA