Sağdan sansürlü sağkalım analizinde makine öğrenmesinde sınıflandırma algoritmaların kullanımı
Using of classification algorithms in machine learning for right censored survival analysis
- Tez No: 630062
- Danışmanlar: PROF. DR. YÜKSEL TERZİ
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Son yıllarda makine öğrenmesi teknikleri sağlık alanında özellikle hastalık prognozu ve tahmini için yaygın bir şekilde kullanılmaktadır. Sansürlü verilerin yer aldığı sağkalım analizinde ise makine öğrenmesi son yıllarda kullanılmaya başlanmıştır. Sansürlü veri ile bireyin yaşam süresi hakkında her zaman tam bir bilgiye ulaşılamayabilir. Bu tip verileri modellemek için genellikle Cox regresyon yöntemi, Kaplan-Meier teknikleri kullanılmaktadır. Bu çalışmada, sağkalım analizi yöntemlerinde makine öğrenme teknikleri kullanılmıştır. Makine öğrenme teknikleri kullanılmadan önce sansürlü verilere Kaplan-Meier tahmin edicisi ile ön işlem uygulanmıştır. Çalışmada ilk olarak sağkalım analizi hakkında bilgi verilmiştir. Daha sonra, makine öğrenme ve sınıflandırma yöntemlerinden Naive Bayes, Karar ağacı, Rastgele Orman ve Destek Vektör Makineleri yöntemleri tanıtılmıştır. Son olarak makine öğrenme sınıflama algoritmalarının performansları karşılaştırılmıştır. Bu çalışmanın uygulama kısmında iki farklı veri ve simülasyon verisi olmak üzere üç uygulama yapılmıştır. Uygulama I akut lösemi hastalarına ait veridir. Uygulama II akut lösemi veri setinden (Uygulama I) elde ettiğimiz korelasyon matrisi kullanılarak, dört farklı örneklem büyüklüğünde üretilen veriler kullanılmıştır. Uygulama III ise R programında bulunan kolon kanseri verisidir. Uygulamalarda veriler Kaplan-Meier yöntemi kullanılarak, veri makine öğrenme algoritmasına uygun hale getirilmiştir. Daha sonra sınıflandırma algoritmalarından Naive Bayes, Karar Ağacı, Rastgele Orman ve Destek Vektör Makineleri yöntemleri veri setlerine uygulanmıştır. Bu algoritmaları karşılaştırmak için performans ölçütlerinden doğruluk, ROC eğrisinin altında kalan alan (AUC) ve F skoru kullanılmıştır. Makine öğrenme sınıflama algoritmalarının performansları karşılaştırıldığında; Uygulama I'de Rastgele Orman, Uygulama II'de Naive Bayes ve Uygulama III'de ise Naive Bayes en iyi performansı göstermiştir. Son olarak bu veri setlerine Cox regresyon yöntemi uygulandı. En iyi performansı gösteren algoritmayla ile Cox regresyon yöntemini karşılaştırmak için AUC değerleri kullanıldı. Analiz sonucunda bu iki yönteminde sonuçlarının birbirine yakın olduğu görüldü. Ancak örneklem sayısı arttığında Cox regresyon yönteminin başarısı düşmekte, makine öğrenme yönteminin ise artmıştır. Sağkalım analizi çalışmalarında makine öğrenmesi kullanılarak kanser hastalarının mortalite durumu veya hastalık nüksü hakkında önemli sonuçlara ulaşılabilmektedir. Sonuç olarak; makine öğrenmesi yönteminin Cox regresyon yöntemine alternatif olarak kullanılabileceği görülmüştür.
Özet (Çeviri)
In recent years, various techniques of machine learning have been commonly used in the field of health, especially for prognosis and prediction of diseases. In the survival analysis with censored data, machine learning has been used in recent years. Observations are called censored when the information about their survival time is incomplete. Thus, Cox regression, Kaplan-Meier techniques are generally applied to model this type of data. In this study, machine learning techniques were used in survival analysis methods. Before machine learning techniques were used, censored data was pre-processed with the Kaplan-Meier estimator. Firstly, information is given about survival analysis. Then, machine learning and classification methods as Naive Bayes, Decision Tree, Random Forest and Support Vector Machine are introduced. Finally, the performances of machine learning classification algorithms were compared. In the data analysis section of this study, three application were used, two different types of data and simulation data. Application I is data for patients with acute leukemia. Application II, using the correlation matrix, obtained from the acute leukemia data set (Application I), four different sample size data were produced. Application III, is the colon cancer data found in the R program. Data in the application, using the Kaplan-Meier method, the data was adapted to the machine learning algorithm. Later, classification algorithms were applied to Naive Bayes, Decision Tree, Random Forest, and Support Vector Machines. In order to compare these algortihms, the accuracy, area under the ROC curve (AUC) and F score methods were used as a performance indicator. When the performances of machine learning classification algorithms are compared; random forest in Practice I, Naive Bayes in Practice II and Naive Bayes in Practice III performed best. Finally, the Cox regression method was applied to these data sets. AUC values were used to compare the best performing algorithm with the Cox regression method. The results of the analysis showed that the results of these two methods were similar. However, when the number of samples increased, the success of the Cox regression method decreased, while machine learning algorithm increased. By using machine learning in survival analysis studies, more accurate information can be achieved about the cancer patient's mortality status or disease recurrence. As a result, machine learning technique will be used as an alternative method to the Cox regression method.
Benzer Tezler
- Sağkalım fonksiyon parametrelerinin deneysel olabilirlik fonksiyonu ile tahmin edilmesi
Estimation of survival function parameters with empirical likelihood function
EMİNE ÖZER
- Soldan budanmış sağdan sansürlü HIV sağkalım verilerinin analizi
An analysis of left-truncated and right-censored HIV survival data
TUBA ŞANLI
Doktora
Türkçe
2022
BiyoistatistikOndokuz Mayıs Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. YÜKSEL TERZİ
- Sağ kalım analizinde parametre tahmini, test istatistikleri ve bir uygulama
Parameter estimation and test statics in survival analysis and an application
ALİ TUNCAY
Yüksek Lisans
Türkçe
2005
İstatistikOndokuz Mayıs Üniversitesiİstatistik Ana Bilim Dalı
Y.DOÇ.DR. KAMİL ALAKUŞ
- Sağdan sansürlü verilerde iki grubun sağkalım eğrilerinin karşılaştırılmasında kullanılan testlerin incelenmesi
Examining tests for comparing of survival curves with right censored data
PINAR GÜNEL KARADENİZ
Doktora
Türkçe
2015
BiyoistatistikUludağ ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. İLKER ERCAN
- Sansürlü veriler için sağkalım analizi ve gerçek verilere uygulaması
Survival analysis for censored data and its application to real data
YÜKSEL TERZİ