Geri Dön

Prediction of death on international stroke trial dataset with the comparison of different statistical methods

International stroke trial veri setindeki ölüm tahmininin farklı istatistiksel yöntemlerle kıyaslanması

  1. Tez No: 748704
  2. Yazar: ALPER UMUT TOSUN
  3. Danışmanlar: PROF. DR. FİLİZ KARAMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 132

Özet

Bu çalışmada, farklı ülkelerdeki akut inme hastalarının altıncı aydaki olay yaşama (mortalite) olasılıklarını tahmin etmek amacıyla regresyon modelleri ve makine öğrenmesi yöntemleri kullanılmıştır. Sonrasında, modellerin performans ölçütleri ile, iç ve dış coğrafi geçerlilikleri (validasyon) değerlendirmeye alınmıştır. Hastaların verisi (n=19435), eksik veriler çıkartıldıktan sonra (n=18408) üçe ayrılmıştır: Birleşik Krallık ve İrlanda hastaları (Britanya verisi, n=5817), Birleşik Krallık dışında bulunan Avrupa ülkeleri hastaları (Avrupa verisi, n=9955) ve Avrupa dışındaki dünya ülkeleri hastaları (Dünya verisi, n=2636). Britanya hastalarından elde edilen farklı sayılardaki örneklemler öğrenim veri setini oluştururken Avrupa ve Dünya verileri ayrı test veri setlerini oluşturmuştur. Lojistik regresyon, kısıtlı kübik spline (RCS) kullanılarak oluşturulmuş lojistik regresyon, cezalı regresyonlar (ridge, lasso, elastik-net), genelleştirilmiş toplamsal model, makine öğrenmesi yöntemleri (destek vektör makineleri, gradient boosting, rastgele orman, yapay sinir ağları ve XGB) ile öğrenim veri setinde tahmin modelleri geliştirilmiştir. Öğrenim veri seti içerisinde sırasıyla 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500 ve 3000 sayılı örneklemler oluşturularak farklı“değişken başına olay”değerlerine (EPV) ayrılmışlardır. Modeller hem birbirleri arasında hem de EPV değerlerine göre kıyaslanmıştır. Her bir modelin performansı, test veri setlerindeki geçerliliğine bakılarak değerlendirilmiştir. Performans ölçütleri için R2, Brier skoru, kalibrasyon (kalibrasyon kestirimi ve kalibrasyon eğimi) ve diskriminasyon ölçütleri (AUC veya C istatistiği) bulunmuş ve karşılaştırılmıştır. Sonuç olarak, makine öğrenme yöntemleri ve geleneksel regresyon yöntemleri kıyaslandığında, özellikle yüksek EPV değerlerinde regresyon modellerinin dış geçerlilik performansları makine öğrenme yöntemlerine göre daha iyi sonuçlar vermiştir. EPV

Özet (Çeviri)

In this study, regression and machine learning methods were applied for prediction of death at sixth month, from stroke patients from different countries. Then, internal and external validities of the models with performance measures were compared. International Stroke Trial dataset (n=19435) was divided into three after missing values were removed (n=18408):“UK data”(n=5817) including UK and Ireland patients,“non-UK data”(n=9955) including all European patients except UK and Ireland patients, and“non-EU data”(n=2636) including world patients except Europe. Samples with different sizes from UK data created the train sets. Test sets were consisted of non-UK data and non-EU data. The 6 different regression methods applied were logistic regression without restricted cubic splines (RCS), logistic regression with RCS, generalized additive model (GAM), penalized regression models (ridge, lasso and elastic net regression). Five different machine learning methods applied in the study were support vector machines (SVM), random forest (RF), neural network (NN), gradient boosting machines (GBM) and extreme gradient boosting (XGB). The sizes of train sets were consisted of 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500 and 3000, respectively. After event per variables (EPV) were determined for each sample size, regression and machine learning models were developed for each sample size. Performance of each model was evaluated according to the validities of the model in test sets. R-squared, Brier score, calibration (intercept and slope) and discriminative abilities (AUC) were found and compared as performance measures. As a result, when traditional regression models and machine learning methods were compared, it is observed that in external validations, performances of regression models were better than machine learning methods, especially for higher EPV values. While EPV

Benzer Tezler

  1. Kredi kartları riskleri ve güvenlik önlemlerinin sigortacılık açısından incelenmesi

    Research on the risks of credit cards and security implementations in the view of insurance

    AYŞEGÜL BÖLÜKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    BankacılıkMarmara Üniversitesi

    DOÇ.DR. ÖMÜR Ş. BABAOĞLU

  2. Tectonic and magmatic structure of Lake Van basin and its structural evolution, Eastern Anatolia accretionary complex (EAAC), East-Turkey

    Van Gölü havzasının tektonik ve magmatik yapısı ve yapısal evrimi, Doğu Anadolu yığışım karmaşığı (DAYK), Doğu Türkiye

    MUSTAFA TOKER

    Doktora

    İngilizce

    İngilizce

    2011

    Jeofizik Mühendisliğiİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    PROF. DR. A. M. CELAL ŞENGÖR

  3. Deprem etkisi altındaki gömülü sürekli boru hatları

    Buried continuous pipelines under the effects of earthquake

    ADİL YİĞİT

    Doktora

    Türkçe

    Türkçe

    2015

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Yapı Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH GEDİKLİ

  4. Böbrek yetmezliği gelişen multipl myelom hastalarında uluslararası evreleme sisteminin sağkalımı öngörmedeki yeri

    In multiple myelom patients with renal failure the place of the international staging system in prediction of survival

    HİKMET BOZYEL

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    NefrolojiGaziantep Üniversitesi

    İç Hastalıkları Ana Bilim Dalı

    DOÇ. DR. FATİH MEHMET ERDUR

  5. Sepsis tanılı yoğun bakım hastalarında çeşitli prognostik göstergelerin mortalite ile ilişkisi

    The relationship of various prognostic indicators with mortality in intensive care unit patients with sepsis

    TUĞÇE DAMARSOY

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Enfeksiyon Hastalıkları ve Klinik MikrobiyolojiBolu Abant İzzet Baysal Üniversitesi

    Enfeksiyon Hastalıkları ve Klinik Mikrobiyoloji Ana Bilim Dalı

    DOÇ. DR. HASAN TAHSİN GÖZDAŞ