Geri Dön

Sağdan sansürlü sağkalım analizinde makine öğrenmesinde sınıflandırma algoritmaların kullanımı

Using of classification algorithms in machine learning for right censored survival analysis

  1. Tez No: 630062
  2. Yazar: PELİN AKIN
  3. Danışmanlar: PROF. DR. YÜKSEL TERZİ
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Son yıllarda makine öğrenmesi teknikleri sağlık alanında özellikle hastalık prognozu ve tahmini için yaygın bir şekilde kullanılmaktadır. Sansürlü verilerin yer aldığı sağkalım analizinde ise makine öğrenmesi son yıllarda kullanılmaya başlanmıştır. Sansürlü veri ile bireyin yaşam süresi hakkında her zaman tam bir bilgiye ulaşılamayabilir. Bu tip verileri modellemek için genellikle Cox regresyon yöntemi, Kaplan-Meier teknikleri kullanılmaktadır. Bu çalışmada, sağkalım analizi yöntemlerinde makine öğrenme teknikleri kullanılmıştır. Makine öğrenme teknikleri kullanılmadan önce sansürlü verilere Kaplan-Meier tahmin edicisi ile ön işlem uygulanmıştır. Çalışmada ilk olarak sağkalım analizi hakkında bilgi verilmiştir. Daha sonra, makine öğrenme ve sınıflandırma yöntemlerinden Naive Bayes, Karar ağacı, Rastgele Orman ve Destek Vektör Makineleri yöntemleri tanıtılmıştır. Son olarak makine öğrenme sınıflama algoritmalarının performansları karşılaştırılmıştır. Bu çalışmanın uygulama kısmında iki farklı veri ve simülasyon verisi olmak üzere üç uygulama yapılmıştır. Uygulama I akut lösemi hastalarına ait veridir. Uygulama II akut lösemi veri setinden (Uygulama I) elde ettiğimiz korelasyon matrisi kullanılarak, dört farklı örneklem büyüklüğünde üretilen veriler kullanılmıştır. Uygulama III ise R programında bulunan kolon kanseri verisidir. Uygulamalarda veriler Kaplan-Meier yöntemi kullanılarak, veri makine öğrenme algoritmasına uygun hale getirilmiştir. Daha sonra sınıflandırma algoritmalarından Naive Bayes, Karar Ağacı, Rastgele Orman ve Destek Vektör Makineleri yöntemleri veri setlerine uygulanmıştır. Bu algoritmaları karşılaştırmak için performans ölçütlerinden doğruluk, ROC eğrisinin altında kalan alan (AUC) ve F skoru kullanılmıştır. Makine öğrenme sınıflama algoritmalarının performansları karşılaştırıldığında; Uygulama I'de Rastgele Orman, Uygulama II'de Naive Bayes ve Uygulama III'de ise Naive Bayes en iyi performansı göstermiştir. Son olarak bu veri setlerine Cox regresyon yöntemi uygulandı. En iyi performansı gösteren algoritmayla ile Cox regresyon yöntemini karşılaştırmak için AUC değerleri kullanıldı. Analiz sonucunda bu iki yönteminde sonuçlarının birbirine yakın olduğu görüldü. Ancak örneklem sayısı arttığında Cox regresyon yönteminin başarısı düşmekte, makine öğrenme yönteminin ise artmıştır. Sağkalım analizi çalışmalarında makine öğrenmesi kullanılarak kanser hastalarının mortalite durumu veya hastalık nüksü hakkında önemli sonuçlara ulaşılabilmektedir. Sonuç olarak; makine öğrenmesi yönteminin Cox regresyon yöntemine alternatif olarak kullanılabileceği görülmüştür.

Özet (Çeviri)

In recent years, various techniques of machine learning have been commonly used in the field of health, especially for prognosis and prediction of diseases. In the survival analysis with censored data, machine learning has been used in recent years. Observations are called censored when the information about their survival time is incomplete. Thus, Cox regression, Kaplan-Meier techniques are generally applied to model this type of data. In this study, machine learning techniques were used in survival analysis methods. Before machine learning techniques were used, censored data was pre-processed with the Kaplan-Meier estimator. Firstly, information is given about survival analysis. Then, machine learning and classification methods as Naive Bayes, Decision Tree, Random Forest and Support Vector Machine are introduced. Finally, the performances of machine learning classification algorithms were compared. In the data analysis section of this study, three application were used, two different types of data and simulation data. Application I is data for patients with acute leukemia. Application II, using the correlation matrix, obtained from the acute leukemia data set (Application I), four different sample size data were produced. Application III, is the colon cancer data found in the R program. Data in the application, using the Kaplan-Meier method, the data was adapted to the machine learning algorithm. Later, classification algorithms were applied to Naive Bayes, Decision Tree, Random Forest, and Support Vector Machines. In order to compare these algortihms, the accuracy, area under the ROC curve (AUC) and F score methods were used as a performance indicator. When the performances of machine learning classification algorithms are compared; random forest in Practice I, Naive Bayes in Practice II and Naive Bayes in Practice III performed best. Finally, the Cox regression method was applied to these data sets. AUC values were used to compare the best performing algorithm with the Cox regression method. The results of the analysis showed that the results of these two methods were similar. However, when the number of samples increased, the success of the Cox regression method decreased, while machine learning algorithm increased. By using machine learning in survival analysis studies, more accurate information can be achieved about the cancer patient's mortality status or disease recurrence. As a result, machine learning technique will be used as an alternative method to the Cox regression method.

Benzer Tezler

  1. Sağkalım fonksiyon parametrelerinin deneysel olabilirlik fonksiyonu ile tahmin edilmesi

    Estimation of survival function parameters with empirical likelihood function

    EMİNE ÖZER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    MatematikMarmara Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. NİLGÜN YILDIZ

  2. Soldan budanmış sağdan sansürlü HIV sağkalım verilerinin analizi

    An analysis of left-truncated and right-censored HIV survival data

    TUBA ŞANLI

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. YÜKSEL TERZİ

  3. Sağ kalım analizinde parametre tahmini, test istatistikleri ve bir uygulama

    Parameter estimation and test statics in survival analysis and an application

    ALİ TUNCAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    İstatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    Y.DOÇ.DR. KAMİL ALAKUŞ

  4. Sağdan sansürlü verilerde iki grubun sağkalım eğrilerinin karşılaştırılmasında kullanılan testlerin incelenmesi

    Examining tests for comparing of survival curves with right censored data

    PINAR GÜNEL KARADENİZ

    Doktora

    Türkçe

    Türkçe

    2015

    BiyoistatistikUludağ Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. İLKER ERCAN

  5. Sansürlü veriler için sağkalım analizi ve gerçek verilere uygulaması

    Survival analysis for censored data and its application to real data

    YÜKSEL TERZİ

    Doktora

    Türkçe

    Türkçe

    2003

    MatematikOndokuz Mayıs Üniversitesi

    Matematik Ana Bilim Dalı

    PROF. DR. YÜKSEL BEK