Yüksek boyutlu sağkalım verilerinin denetimli temel bileşenler, cezalı cox regresyon ve aşırı öğrenme makineleri yöntemleri ile karşılaştırmalı analizi
Comparative analysis of high dimensional survival data with supervised principal components, penalized cox regression and extreme learning machines methods
- Tez No: 742502
- Danışmanlar: PROF. DR. İMRAN KURT ÖMÜRLÜ
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Aşırı öğrenme makineleri, Cezalı Cox regresyon analizi, Denetimli temel bileşenler, Sağkalım, Simülasyon, Extreme learning machines, Penalized Cox regression model, Simulation, Supervised principal components, Survival
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Aydın Adnan Menderes Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik Bilim Dalı
- Sayfa Sayısı: 74
Özet
Amaç: Bu çalışmanın amacı farklı sansür oranlarına göre türetilen yüksek boyutlu sağkalım verilerinde aşırı öğrenme makineleri tabanlı sağkalım modelleri, denetimli temel bileşenler analizi ile L2-cezalı Cox regresyon modellerinin sağkalım süresi ve kısa dönem sağkalım durumu tahminindeki performanslarının karşılaştırılması, birbirlerine benzerlik ve birbirlerinden farklılıklarının belirlenmesidir. Gereç ve Yöntem: n=200 birim ve aralarındaki korelasyon düzeyi -0,7 ile 0,7 arasında değişen p=1000 gen ifade değeri içeren yüksek boyutlu sağkalım veri setleri rastgele türetilmiştir. Türetilen veri setleri 70:30 oranında eğitim ve test setlerine rastgele ayrılmıştır. Eğitim setleri kullanılarak aşırı öğrenme makineleri tabanlı sağkalım, denetimli temel bileşenler ve L2-cezalı Cox regresyon modelleri eğitilmiştir. 1000 döngü ile gerçekleştirilen simülasyon sonunda modellerin test setinde sağkalım süresi ve kısa dönem sağkalım tahminlerine ilişkin performanslarının belirlenmesi için C-indeks, integrali alınmış Brier skoru, duyarlılık, özgüllük, doğruluk, negatif tanımlama, pozitif tanımlama oranları ile pozitif tanımlama oranı-duyarlılık eğrisi altında kalan alan, alıcı işlem karakteristiği eğrisi altında kalan alan, F1 skoru, Cohen'in kappa katsayısı ve Matthews korelasyon katsayısı performans ölçütleri hesaplanmıştır. Bulgular: Simülasyon bulguları incelendiğinde, çalışmada kullanılan sağkalım modellerinin performanslarının birbirine yakın olduğu belirlenmiştir. Sağkalım modellerinin hem sağkalım süresi hem de kısa dönem sağkalım tahminine ilişkin performanslarının sansür oranındaki artış ile düşüş eğiliminde olduğu gözlenmiştir. Uygulanan aşamalı kümeleme analizine göre, değişen sansür oranlarına göre birbirine yakın performans gösteren yöntemlerin aynı kümede yer aldığı tespit edilmiştir. Tüm senaryolarda olabilirlik tabanlı boosting aşırı öğrenme makineleri ve L2-cezalı Cox regresyon analizi yöntemlerinin birbirine en yakın performans gösteren yöntemler olduğu, model tabanlı boosting aşırı öğrenme makineleri yönteminin ise diğer tüm yöntemlerden daha uzak ve düşük bir performans gösterdiği dikkat çekmiştir. Sonuç: Sonuç olarak, sağkalım verilerindeki sansür oranının yüksek olması sağkalım modellerinin performanslarını olumsuz etkilemektedir. Modellerin yüksek boyutlu sağkalım verilerinin analizindeki performansları birbirine yakın olduğundan, denetimli temel bileşenler analizi gibi boyut indirgeme yöntemlerinin ve cezalı modellerin yerine yüksek boyutlu sağkalım verilerini özellikle doğrudan analiz edebilen aşırı öğrenme makineleri tabanlı sağkalım modellerinin kullanışlı ve diğer yöntemlere tercih edilebilir olduğu ortaya konmuştur.
Özet (Çeviri)
Objective: The goal of the study is to compare the performances of extreme learning machines-based survival, supervised principal components analysis, and L2-penalized Cox regression methods and determine similarity and differences among the models in the prediction of survival time and short-term survival in high dimensional survival datasets generated by varying censoring rates. Material and Methods: Gene expression survival datasets containing n=200 units and p=1000 gene expression levels whose correlation levels were changing between -0.7 and 0.7 were randomly generated. Simulated datasets were then randomly divided into training and test sets in a 70:30 ratio. Extreme learning machines-based survival, supervised principal components, and L2-penalized Cox regression models were trained in a training set. At the end of the 1000 times repetitive simulation, Harrell's concordance index value, integrated Brier score, sensitivity, specificity, accuracy rates, and negative predictive value, positive predictive value, the area under precision-recall, area under the curve, F1 score, Cohen's kappa coefficient, and Matthew's correlation coefficient were calculated to reveal the performances of the methods. Results: When the simulation results were examined, it was determined that the survival models' performances were close to each other. It was also observed that the performances of survival models concerning the prediction of both survival time and short-term survival tend to decrease by increasing the censoring rate. According to the applied hierarchical clustering analysis, it was determined that the methods that perform close to each other according to the varying censoring rates were in the same cluster. It was noted that in all scenarios, an extreme learning machine Cox model with likelihood-based boosting and L2-penalized Cox methods were the methods that showed the closest performance to each other. In contrast, an extreme learning machine Cox model with a gradient-based boosting method showed far lower performance than other methods. Conclusion: To conclude, the high rate of censoring in survival data adversely affects the performance of the survival models. Since the performances of the models in the analysis of high-dimensional survival data were close to one another, it was revealed that extreme learning machines-based survival models, which can directly analyze high-dimensional survival data, were useful and can be preferred instead of dimension reduction methods such as supervised principal component analysis, and penalized models.
Benzer Tezler
- Obtain anterior/posterior position of the tumor through machine learning
Makine öğrenme yoluyla tümörün anterior/posterior pozisyonunu elde edin
GOLSHAN GHOLAMPOUR
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik-Haberleşme Eğitimi Ana Bilim Dalı
PROF. DR. İBRAHİM AKDUMAN
- TCGAnalyzeR: A web portal for visualization of pan-cancer molecular patient data
TCGAnalyzeR: Pan-kanser moleküler hasta verilerinin görüntülenmesi için bir web portalı geliştirilmesi
BAŞAK ABAK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman ÜniversitesiBiyoinformatik Ana Bilim Dalı (Disiplinlerarası)
DR. ÖĞR. ÜYESİ TUĞBA SÜZEK
- Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data
Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı
ERSİN ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA
- Boylamsal ve sağ kalım verilerinin birleşik modellenmesi üzerine bir çalışma
A study on joint modelling of longitudinal and survival data
ZEYNEP ATLI
Doktora
Türkçe
2020
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. GÜLAY BAŞARIR
PROF. DR. MİTHAT GÖNEN
- Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi
Clustering next generation sequencing data based on deep learning
UĞUR TOPRAK
Doktora
Türkçe
2022
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. BEYZA DOĞANAY ERDOĞAN