Geri Dön

Lojistik regresyon analizi ile elde edilen beta katsayısına, odds oranına ve makine öğrenme algoritmaları ile elde edilen ağırlıklandırılmış skorlara dayalı klinik tahmin modellerinin başarılarının karşılaştırılması

Comparison of success of clinical prediction models based on beta coefficient, odds ratio obtained by logistic regression analysis and weighted scores obtained by machine learning algorithms

  1. Tez No: 851890
  2. Yazar: GÜLÇİN AYDOĞDU
  3. Danışmanlar: PROF. DR. YASEMİN YAVUZ
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 180

Özet

Klinik tahmin modelleri, yaş, cinsiyet ve biyobelirteçler gibi tahmin edici sayısının birden fazla olduğu durumlarda prognostik veya risk faktörlerini kullanarak bir birey için gelecekteki bir olayın veya hastalığın riskini tahmin etmek amacıyla yaygın olarak kullanılmaktadır Literatürde klinik tahmin modellerinin oluşturulmasında yaygın olarak β katsayıları, odds oranları ve bunların tamsayıya yuvarlanmış skorları kullanılmaktadır Bazı çalışmalarda makine öğrenme algoritmaları ile ağırlıklandırılmış skorlar da kullanılmaktadır. Ancak klinik tahmin modellerinde hangi skorlama sisteminin kullanılmasının daha iyi sonuç vereceği hakkında bir fikir birliği bulunmamaktadır. Bu tez çalışmasında lojistik regresyondan elde edilen β katsayıları, odds oranları, bu değerlerin tamsayıya dönüştürülmesi ile elde edilen skorlar ve makine öğrenme algoritmaları (rastgele orman, destek vektör makineleri vb.) ile ağırlıklandırılarak elde edilen skorlar aracılığıyla farklı senaryolar kullanılarak oluşturulan tahmin modellerinin performanslarının değerlendirilmesi ve en iyi tahmin modelinin oluşturulması amaçlanmıştır. Çalışmamızda iki düzeyli sonuç değişkene sahip klinik tahmin modellerinde risk faktörlerinin skor değerlerini belirlemek için benzetim ile üretilen veri seti ve gerçek veri seti kullanılarak lojistik regresyon analizi gerçekleştirilmiştir. Çalışmada farklı senaryolar için benzetim yöntemi kullanılmıştır. Hangi senaryoda hangi klinik tahmin modelinin daha başarılı olduğu sonucuna ulaşılmıştır. Gerçek veri setinde pediatri alanında 522 çocuktan toplanan kapsamlı bir veri seti ile benzetim çalışmasında kullanılan tüm yöntemler ile malnütrisyon durumunu tahmin eden klinik tahmin modeli geliştirildi. Model performanslarını karşılaştırmak için duyarlılık, seçicilik, PTD, NTD, doğruluk, F1 skorları, AUC ve MCC değerleri hesaplandı. Araştırma bulgularımız birlikte değerlendirildiğinde çalışmamızda öncelikle doğrudan makine öğrenme algoritmaları ile sınıflama yaparak model kurmak yerine iki düzeyli bir yanıta sahip tanı konulacak klinik tahmin modellerinde lojistik regresyon modeli ile kurulabilecek tüm modelleri farklı senaryolar ile karşılaştırıldı. Ayrıca lojistik regresyona alternatif olarak klinik skorlama için risk faktörlerine modelde verilecek ağırlıkları veya skorları farklı makine öğrenme algoritmaları ile elde edildi ve tüm model sonuçları karşılaştırıldı. Benzetim veri seti ile oluşturulan klinik tahmin modellerinde tüm senaryolar AUC, duyarlılık F1 skorları ve MCC değerleri ile değerlendirildiğinde ağırlıklı olarak en başarılı modellerin lojistik regresyon ile elde edilen beta, odds oranları, diğer algoritmalardan bayesci GDM ve L1(lasso) olduğu aynı zamanda bunları tamsayıya çevrildiğide çok büyük farklılıklar yaratmadığı için kullanım kolaylığından dolayı tam sayılı beta ve tam sayılı odds son model olarak belirlendi ve makine öğrenme algoritmalarından rastgele orman algoritmalarınn sınıflama başarısının en küçük olduğu belirlendi. Malnütrisyon durumunu tahmin eden klinik tahmin modelinde En iyi başarı lojistik regresyon analizi ile beta katsayıları kullanılarak elde edildi. Ancak klinik tahmin modellerinin kullanılabilirlik özelliği düşünülerek ikincil olarak en başarılı model tam sayılı odds oranlarına dayalı olarak geliştirilen klinik tahmin modeli oldu. Bu çalışmada yeni bir yöntem olarak klinik tahmin modellerinde makine öğrenme algoritmaları ile modeli oluşturmak yerine risk faktörleri için verilecek skorların makine öğrenme algoritmaları ile verilebileceğini öneriyoruz. Sonuç olarak, klinik tahmin modellerinin etkili olması, yalnızca iyi bir performans sergilemekle değil, aynı zamanda gerçek dünya koşullarında uygulanabilir, anlaşılabilir, doğru ve genellemeye açık olma özellikleriyle de ilişkilendirilir.

Özet (Çeviri)

Clinical prediction models are widely used to predict the risk of future events or diseases for an individual by utilizing predictive factors such as age, gender, and biomarkers when there are multiple predictive variables. In the literature, the creation of clinical prediction models often involves the use of β coefficients, odds ratios, and their integer-rounded scores derived from logistic regression. Some studies also employ machine learning algorithms to generate weighted scores. However, there is no consensus on which scoring system is more effective in clinical prediction models. This thesis aims to evaluate the performance of prediction models created using logistic regression-derived β coefficients, odds ratios, scores obtained by rounding these values, and scores weighted using machine learning algorithms (random forests, support vector machines, etc.) under different scenarios. The goal is to identify the best prediction model. In this study, logistic regression analysis was conducted using simulated and real datasets to determine the score values of risk factors in clinical prediction models with binary outcome variables. Simulation methods were employed for different scenarios, leading to conclusions about which clinical prediction model was more successful in each scenario. A comprehensive dataset from 522 children in the field of pediatrics was used for the logistic regression analysis, and a clinical prediction model predicting malnutrition status was developed. Various performance metrics, including sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), accuracy, F1 score, MCC and AUC values, were calculated to compare model performances. Our research primarily compared logistic regression models for diagnosing clinical prediction models with binary outcomes under different scenarios rather than directly classifying with machine learning algorithms. Additionally, we obtained weights or scores for risk factors in logistic regression as an alternative to logistic regression, using different machine learning algorithms, and compared all model results. When evaluating AUC, accuracy, F1 score and MCC for clinical prediction models created with the simulated dataset, the most successful models were consistently Bayesian GLM, L1 (lasso) based on scores obtained from logistic regression-derived beta, integer beta, odds, integer odds, and machine learning algorithms. The logistic regression analysis using beta coefficients achieved the highest success in predicting malnutrition status in the clinical prediction model. However, considering the usability feature of clinical prediction models, the second most successful model was the one developed based on integer odds ratios. As a novel approach, we propose in this study that machine learning algorithms can be used to determine scores for risk factors in clinical prediction models, instead of creating the entire model using machine learning algorithms. In conclusion, the effectiveness of clinical prediction models is associated not only with good performance but also with being applicable, understandable, accurate, and generalizable under real-world conditions.

Benzer Tezler

  1. Akut dekompanse kalp yetersizliği ile başvuran ciddi kalp yetersizliği hastalarında taburculuk sonrası 1-yıllık mortaliteyi öngördüren yeni risk skor modeli

    A new risk model to predict post-discharge 1-year mortality of severe heart failure patients from data acquired during admission for acute decompansated heart failure

    KURTULUŞ KARAÜZÜM

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2015

    KardiyolojiKocaeli Üniversitesi

    Kardiyoloji Ana Bilim Dalı

    PROF. DR. DİLEK URAL

  2. Bazal luteinizan hormon düzeylerinin, Gnrh-antagonist protokol uygulanan hastalarda in-vitro fertilizasyon sonuçları üzerine etkisinin retrospektif olarak değerlendirilmesi

    Retrospective evaluation of the impact of basal luteinizing hormone levels on in-vitro fertilization outcomes in patients treated with Gnrh antagonist protocol

    NÜSEYBE ARTIRAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Kadın Hastalıkları ve DoğumHacettepe Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    DOÇ. DR. SEZCAN MÜMÜŞOĞLU

    DR. ÖĞR. ÜYESİ ONUR İNCE

  3. EEG controlled semi-autonomous mobile vehicle design and implementation

    EEG kontrollü yarı otonom mobil araç tasarımı ve gerçeklenmesi

    HÜSEYİN TANZER ATAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. FATMA İNCİ ÇİLESİZ

  4. Teknoloji geliştirme bölgelerinin istatistiksel yöntemler ile etkinlik değerlendirilmesi

    Efficiency evakuation of the technology development zones by statistical methods

    NECLA YAHŞİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. GAMZE ÖZEL KADILAR

  5. Üyte kliniği'ne başvuran hastaların serum AMH değerleri ile multinükleus embriyo görülme sıklığı arasındaki ilişki

    Does serum AMH level affect the incidence of multinuclear embryos in icsi cycles?

    SÜMEYYE MERMİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Kadın Hastalıkları ve DoğumSağlık Bilimleri Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    PROF. NAFİYE YILMAZ