Yaşam analizinde uyarlanmış en çok olabilirlik tahmininin kullanılması ve klasik istatistiksel yöntemler ve makine öğrenmesi algoritmaları ile karşılaştırılması
The use of modified maximum likelihood estimation in survival analysis and its comparisons with traditional statistical methods and machine learning algorithms
- Tez No: 873736
- Danışmanlar: PROF. DR. KEVSER SETENAY ÖNER
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Kaplan-Meier, Cox oransal hazard, makine öğrenmesi, Weibull, uyarlanmış en çok olabilirlik, Kaplan-Meier, Cox proportional hazard, machine learning, Weibull, modified maximum likelihood
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Eskişehir Osmangazi Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Amaç: Bu tez çalışmasında yaşam sürelerinin klasik istatistiksel yöntemler ve makine öğrenmesi yöntemleri ile analiz edilerek elde edilen modellerin performanslarının karşılaştırılması amaçlanmıştır. Yöntem: Sağkalım analizlerinde klasik istatistiksel yöntemlerden Log-rank testi ile Kaplan-Meier yöntemi, Cox oransal hazard regresyon analizi ve hızlandırılmış başarısızlık zamanı modeli kullanılmıştır. Parametrik bir yöntem olan hızlandırılmış başarısızlık zamanı modelinde yaşam sürelerinin Weibull dağılımdan geldiği varsayılmış ve bu varsayımdan uzaklaşma söz konusu olduğunda sağlam parametre tahminleri yapılabilmesi için uyarlanmış en çok olabilirlik yöntemi kullanılmıştır. Ayrıca sağkalım analizlerinde makine öğrenmesi yöntemlerinden rasgele orman ve gradyan artırma makineleri kullanılarak klasik yöntemlerle makine öğrenmesi yöntemlerinin performansları C-indeksi ile karşılaştırılmıştır. Bulgular: Model performansları hem simülasyon çalışması hem de gerçek veri seti ile karşılaştırılmıştır. Simülasyon çalışmasında örneklem büyüklüğü n=500 ve n=1000, sansür oranları %20, %40 ve %60 olacak şekilde veriler türetilmiştir. Rasgele orman ve gradyan artırma makineleri kullanılarak elde edilen modellerin performanslarının diğer modellerin performanslarına kıyasla daha yüksek olduğu görülmüştür. Gerçek veri seti kullanılarak yapılan uygulama çalışmasında ise en iyi performans gösteren modelin rasgele modeli olduğu görülmüştür. Bunu uyarlanmış en çok olabilirlik tahminleri kullanılarak elde edilen Weibull hızlandırılmış başarısızlık zamanı modeli takip etmiştir. Sonuç: Gerçek hayatta çok sayıda sansürlü verilerin varlığı söz konusudur. Ayrıca çoğunlukla yaşam süreleri için dağılım varsayımı da sağlanamamaktadır. Bu nedenle sağkalım analizinde makine öğrenmesi yöntemlerinin kullanılması ve parametrik istatistiksel yöntemler için de sağlam tahmin yöntemlerinin kullanılması önerilmiştir.
Özet (Çeviri)
Aim: Aim of this thesis is to compare the performance of models obtained by analyzing survival times with traditional statistical and machine learning methods. Methods: Traditional statistical methods including Kaplan-Meier method with Log-rank test, Cox proportional hazard regression analysis and accelerated failure time model have been employed in survival analysis. It has been asummed that survival times follow a Weibull distribution in accelerated failure time model and modified maximum likelihood method has been used to make robust parameter estimates when deviating from this assumption. Additionally, random forest and gradient boosting machines have been used in survival analysis, and their performances have been compared with classical methods using C-index. Results: Model performances have been compared using both simulation studies and real data application. In simulation study, data were generated with sample sizes of n=500, n=1000, and censoring rates of 20%, 40%, 60%. Models obtained using random forest and gradient boosting machines showed higher performances compared to other models. In application study, random forest model has performed the best, followed by Weibull accelerated failure time model obtained using modified maximum likelihood estimates. Conclusion: In real-life, there are often numerous censored data and distribution assumption for survival times is often not met. Therefore, use of machine learning methods and robust estimation method for parametric statistical models in survival analysis are recommended.
Benzer Tezler
- Güvenilirlik analizi ve maliyete etkisi: Elektronik kartlar üzerine bir uygulama
Reliability analysis and cost effect: An application on electronic cards
MELİH KARA
Yüksek Lisans
Türkçe
2022
Aktüerya BilimleriHacettepe ÜniversitesiAktüerya Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BAŞAK BULUT KARAGEYİK
DOÇ. DR. KÖNÜL BAYRAMOĞLU KAVLAK
- Assessment of urbanization history of Addis Ababa city, Ethiopia
Addıs Ababa cıty, Ethıopıa'nın kentleşme tarihinin değerlendirilmesi
ABDURAHMAN HUSSEN YIMER
Yüksek Lisans
İngilizce
2023
Şehircilik ve Bölge PlanlamaMersin ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ALİ CENAP YOLOĞLU
- İlkokula uyarlanmış Dede Korkut hikâyelerinde değerler eğitimi
Education of values in Dede Korkut stories adapted to primary school
HAKAN KARASU
Yüksek Lisans
Türkçe
2018
Eğitim ve ÖğretimMarmara Üniversitesiİlköğretim Ana Bilim Dalı
PROF. DR. MİDRABİ CİHANGİR DOĞAN
- ISO 9000 kalite yönetimi ve ISO 14000 çevre yönetim sistemleri uygulamalarının değerlendirilmesi: Türkiye örneği
An Evaluation of ISO 9000 quality management and ISO 14000 environmental management systems implementations: The case of Turkey
BERSAM BOLAT
Doktora
Türkçe
2002
İşletmeİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF.DR. SITKI GÖZLÜ
- Yaşam çözümlemesinde kümelenmiş başarısızlık süresi
Clustered failure time data in survival analysis
SÜMEYYE KUTAY
Yüksek Lisans
Türkçe
2018
İstatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. DURDU KARASOY