Ulusal elektronik sağlık kayıtları üzerinde makine öğrenmesi ile kanser risk faktörlerinin incelenmesi
Analysis of cancer risk factors with machine learning on national electronic health records
- Tez No: 876988
- Danışmanlar: DOÇ. DR. KEMAL HAKAN GÜLKESEN, PROF. DR. HAKAN ŞAT BOZCUK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Computer Engineering and Computer Science and Control, Biostatistics
- Anahtar Kelimeler: büyük veri, makine öğrenmesi, yapay zeka, kanserin erken tanısı, big data, machine learning, artificial intelligence, early detection of cancer
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Akdeniz Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Bilim Dalı
- Sayfa Sayısı: 100
Özet
ÖZET Amaç: Kanser, dünya genelinde önde gelen ölüm nedenlerinden biridir. Ulusal elektronik sağlık kayıtları (EHR), potansiyel kanser risk faktörlerini belirlemek için analiz edilebilecek zengin bir bilgi kaynağı sunar. Bu çalışmanın amacı, çeşitli makine öğrenme modelleri kullanarak kanser tahmininin doğruluğunu ve performansını değerlendirmektir. Ayrıca, çeşitli değişkenlerin kanser riski üzerindeki etkilerini incelemek ve bu bilgilerle klinik uygulamalara ve hasta yönetimine yönelik öneriler geliştirmek hedeflenmiştir. Yöntem: Çalışmada kullanılan veri seti, 1 Ocak 2018 ile 31 Aralık 2022 tarihleri arasında kanser tanısı almış deney grubu, kanser tanısı almamış kontrol grubu 18 yaş üstü Türkiye Cumhuriyeti vatandaşları ve Türkiye'de oturma iznine sahip kişilerin e-Nabız sisteminden alınan verilerden oluşmaktadır. Veri setine standart ölçekleme işlemi uygulanmış ve makine öğrenme modelleri (lojistik regresyon [LR], SVM, XGBoost, karar ağaçları, rastgele ormanlar, yapay sinir ağları) uygulanmıştır. Modellerin performansı doğruluk, duyarlılık, kesinlik, F1 skoru, MCC, AUC-ROC ve precision-recall curve (PRC) metrikleri ile değerlendirilmiştir. Ayrıca, veri setindeki değişkenlerin kanser riski üzerindeki etkileri odds oranları, p-değerleri ve etki büyüklükleri kullanılarak analiz edilmiştir. Bulgular: Yapılan analizlerde, XGBoost modeli 0,846 (0,841-0,850, %95 GA) AUC değeri ile en yüksek performansı göstermiştir. LR analizi ileri yaş, İstanbul bölgesinde ikamet, yüksek hemoglobin, düşük ALT ve bazı komorbiditelerin kanser riski ile ilişkili olduğunu göstermiştir. Sonuç: Çalışmamız, kanser tahmininde XGBoost modelinin en yüksek performansı sergilediğini ortaya koymuştur. Bazı değişkenlerin kanser riski üzerindeki etkileri, klinik uygulamalar ve hasta yönetimi için kritik bilgiler sunmaktadır. Bu bulgular, makine öğrenimi modellerinin sağlık uygulamalarında kullanımını desteklemekte ve kanserin daha iyi anlaşılmasına katkıda bulunmaktadır.
Özet (Çeviri)
ABSTRACT Objective: Cancer is one of the leading causes of death worldwide. National electronic health records (EHR) provide a rich source of data that can be analyzed to identify potential cancer risk factors. The aim of this study is to evaluate the accuracy and performance of cancer prediction using various machine learning (ML) models. Additionally, the study aims to examine the effects of various variables on cancer risk and to develop recommendations for clinical applications and patient management based on this information. Method: The data set used in the study consists of the data citizens of the Republic of Turkey and persons with a residence permit in Turkey, over the age of 18. The data was obtained from the e-Nabız system. The experimental group was diagnosed with cancer between 1 January 2018 and 31 December 2022, and the control group had no cancer diagnosis. The data underwent standard scaling, several ML models (logistic regression [LR], SVM, XGBoost, decision trees, random forests, artificial neural networks) were applied. Model performance was evaluated using accuracy, sensitivity, precision, F1 score, MCC, AUC-ROC, and precision-recall curve (PRC) metrics. Additionally, the effects of other variables on cancer risk were analyzed using odds ratios, p-values, and effect sizes. Results: The analysis showed that the XGBoost model showed the highest performance with an AUC value of 0.846 (0.841-0.850, 95% CI). LR analysis showed that older age, residence in Istanbul region, high haemoglobin, low ALT and some comorbidities were associated with cancer risk. Conclusion: Our study revealed that the XGBoost model performed the best in cancer prediction. The effects of certain variables on cancer risk provide critical information for clinical applications and patient management. These findings support the use of ML models in healthcare applications and contribute to a better understanding of cancer.
Benzer Tezler
- Sustainable development goals in lower-middle income economy: Relevancy and outlook in Cameroon
Alt gelirli ekonomi'de sürdürülebilir kalkınma hedefleri: Kamerun'da uygunluk ve görünüm
HAMAN ADAMA MOHAMADOU
Doktora
İngilizce
2022
EkonomiAnkara Yıldırım Beyazıt ÜniversitesiSosyal Politika Ana Bilim Dalı
DOÇ. DR. ABDULKADİR DEVELİ
- Restful web servisleri ile e-sağlık sistemleri gerçekleştirimi
Implementing e-health systems using restful web services
ALİ NİHAT ÇİÇEK
Yüksek Lisans
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Bölümü
DOÇ. DR. ERDOĞAN DOĞDU
- Tıbbi kayıtların tutulmasından ve saklanmasından doğan hukuki sorumluluk
Private law liability arising from the keeping and storage of medical records
EBRU ÖZKAN
- İntörn hekimlerinin solunum ve kalp sesleri becerisinin kazandırılmasında mobil aplikasyonlu (smartsteo) kablosuz ses iletim sisteminin etkinliğinin değerlendirilmesi
Evaluation of the efficiency of wireless voice transmission system with mobile application (smartsteo) in gaining respiratory and heart sound skills of interns
SEYFETTİN KAZANIR
Yüksek Lisans
Türkçe
2022
BiyomühendislikAkdeniz ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN ÖZGÜR KAZANCI
YRD. DOÇ. DR. OKAN ORAL