Geri Dön

Yüksek boyutlu sağkalım verilerinin denetimli temel bileşenler, cezalı cox regresyon ve aşırı öğrenme makineleri yöntemleri ile karşılaştırmalı analizi

Comparative analysis of high dimensional survival data with supervised principal components, penalized cox regression and extreme learning machines methods

  1. Tez No: 742502
  2. Yazar: FULDEN CANTAŞ TÜRKİŞ
  3. Danışmanlar: PROF. DR. İMRAN KURT ÖMÜRLÜ
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Aşırı öğrenme makineleri, Cezalı Cox regresyon analizi, Denetimli temel bileşenler, Sağkalım, Simülasyon, Extreme learning machines, Penalized Cox regression model, Simulation, Supervised principal components, Survival
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Aydın Adnan Menderes Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Biyoistatistik Bilim Dalı
  13. Sayfa Sayısı: 74

Özet

Amaç: Bu çalışmanın amacı farklı sansür oranlarına göre türetilen yüksek boyutlu sağkalım verilerinde aşırı öğrenme makineleri tabanlı sağkalım modelleri, denetimli temel bileşenler analizi ile L2-cezalı Cox regresyon modellerinin sağkalım süresi ve kısa dönem sağkalım durumu tahminindeki performanslarının karşılaştırılması, birbirlerine benzerlik ve birbirlerinden farklılıklarının belirlenmesidir. Gereç ve Yöntem: n=200 birim ve aralarındaki korelasyon düzeyi -0,7 ile 0,7 arasında değişen p=1000 gen ifade değeri içeren yüksek boyutlu sağkalım veri setleri rastgele türetilmiştir. Türetilen veri setleri 70:30 oranında eğitim ve test setlerine rastgele ayrılmıştır. Eğitim setleri kullanılarak aşırı öğrenme makineleri tabanlı sağkalım, denetimli temel bileşenler ve L2-cezalı Cox regresyon modelleri eğitilmiştir. 1000 döngü ile gerçekleştirilen simülasyon sonunda modellerin test setinde sağkalım süresi ve kısa dönem sağkalım tahminlerine ilişkin performanslarının belirlenmesi için C-indeks, integrali alınmış Brier skoru, duyarlılık, özgüllük, doğruluk, negatif tanımlama, pozitif tanımlama oranları ile pozitif tanımlama oranı-duyarlılık eğrisi altında kalan alan, alıcı işlem karakteristiği eğrisi altında kalan alan, F1 skoru, Cohen'in kappa katsayısı ve Matthews korelasyon katsayısı performans ölçütleri hesaplanmıştır. Bulgular: Simülasyon bulguları incelendiğinde, çalışmada kullanılan sağkalım modellerinin performanslarının birbirine yakın olduğu belirlenmiştir. Sağkalım modellerinin hem sağkalım süresi hem de kısa dönem sağkalım tahminine ilişkin performanslarının sansür oranındaki artış ile düşüş eğiliminde olduğu gözlenmiştir. Uygulanan aşamalı kümeleme analizine göre, değişen sansür oranlarına göre birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldığı tespit edilmiştir. Tüm senaryolarda olabilirlik tabanlı boosting aşırı öğrenme makineleri ve L2-cezalı Cox regresyon analizi yöntemlerinin birbirine en yakın performans gösteren yöntemler olduğu, model tabanlı boosting aşırı öğrenme makineleri yönteminin ise diğer tüm yöntemlerden daha uzak ve düşük bir performans gösterdiği dikkat çekmiştir. Sonuç: Sonuç olarak, sağkalım verilerindeki sansür oranının yüksek olması sağkalım modellerinin performanslarını olumsuz etkilemektedir. Modellerin yüksek boyutlu sağkalım verilerinin analizindeki performansları birbirine yakın olduğundan, denetimli temel bileşenler analizi gibi boyut indirgeme yöntemlerinin ve cezalı modellerin yerine yüksek boyutlu sağkalım verilerini özellikle doğrudan analiz edebilen aşırı öğrenme makineleri tabanlı sağkalım modellerinin kullanışlı ve diğer yöntemlere tercih edilebilir olduğu ortaya konmuştur.

Özet (Çeviri)

Objective: The goal of the study is to compare the performances of extreme learning machines-based survival, supervised principal components analysis, and L2-penalized Cox regression methods and determine similarity and differences among the models in the prediction of survival time and short-term survival in high dimensional survival datasets generated by varying censoring rates. Material and Methods: Gene expression survival datasets containing n=200 units and p=1000 gene expression levels whose correlation levels were changing between -0.7 and 0.7 were randomly generated. Simulated datasets were then randomly divided into training and test sets in a 70:30 ratio. Extreme learning machines-based survival, supervised principal components, and L2-penalized Cox regression models were trained in a training set. At the end of the 1000 times repetitive simulation, Harrell's concordance index value, integrated Brier score, sensitivity, specificity, accuracy rates, and negative predictive value, positive predictive value, the area under precision-recall, area under the curve, F1 score, Cohen's kappa coefficient, and Matthew's correlation coefficient were calculated to reveal the performances of the methods. Results: When the simulation results were examined, it was determined that the survival models' performances were close to each other. It was also observed that the performances of survival models concerning the prediction of both survival time and short-term survival tend to decrease by increasing the censoring rate. According to the applied hierarchical clustering analysis, it was determined that the methods that perform close to each other according to the varying censoring rates were in the same cluster. It was noted that in all scenarios, an extreme learning machine Cox model with likelihood-based boosting and L2-penalized Cox methods were the methods that showed the closest performance to each other. In contrast, an extreme learning machine Cox model with a gradient-based boosting method showed far lower performance than other methods. Conclusion: To conclude, the high rate of censoring in survival data adversely affects the performance of the survival models. Since the performances of the models in the analysis of high-dimensional survival data were close to one another, it was revealed that extreme learning machines-based survival models, which can directly analyze high-dimensional survival data, were useful and can be preferred instead of dimension reduction methods such as supervised principal component analysis, and penalized models.

Benzer Tezler

  1. Obtain anterior/posterior position of the tumor through machine learning

    Makine öğrenme yoluyla tümörün anterior/posterior pozisyonunu elde edin

    GOLSHAN GHOLAMPOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik-Haberleşme Eğitimi Ana Bilim Dalı

    PROF. DR. İBRAHİM AKDUMAN

  2. TCGAnalyzeR: A web portal for visualization of pan-cancer molecular patient data

    TCGAnalyzeR: Pan-kanser moleküler hasta verilerinin görüntülenmesi için bir web portalı geliştirilmesi

    BAŞAK ABAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman Üniversitesi

    Biyoinformatik Ana Bilim Dalı (Disiplinlerarası)

    DR. ÖĞR. ÜYESİ TUĞBA SÜZEK

  3. Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data

    Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı

    ERSİN ONUR ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA

  4. Boylamsal ve sağ kalım verilerinin birleşik modellenmesi üzerine bir çalışma

    A study on joint modelling of longitudinal and survival data

    ZEYNEP ATLI

    Doktora

    Türkçe

    Türkçe

    2020

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. GÜLAY BAŞARIR

    PROF. DR. MİTHAT GÖNEN

  5. Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi

    Clustering next generation sequencing data based on deep learning

    UĞUR TOPRAK

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. BEYZA DOĞANAY ERDOĞAN