Geri Dön

Optimization models for survival analysis to identify key gene sets in cancer

Kanser hastalığında önemli gen kümelerini belirlemek için geliştirilen en iyileme modelleri

  1. Tez No: 648455
  2. Yazar: ONUR DERELİ
  3. Danışmanlar: PROF. DR. CEYDA OĞUZ
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Onkoloji, Industrial and Industrial Engineering, Oncology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği ve Operasyon Yönetimi
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 111

Özet

Tümör biyopsilerinden elde edilen genomik karakterizasyonlar, kanserin oluşumu ve seyri hakkında bilgi edinmemize yardımcı olmaktadır. Sağkalım analizi, kanser hastalarının sağkalım sürelerini tahmin etmek ve hastalığın ilerleme mekanizmalarını anlamak için kullanılan araştırma yöntemlerinden birisidir. Eğitim örneklerinin sınırlı sayıda ve genomik verilerdeki öznitelikler arasındaki korelasyonun oldukça yüksek olması, sağkalım analizini zorlu bir hale getirmektedir. Genomik karakterizasyonların yanı sıra, kansere özgü biyolojik yolak bilgilerinin de sağkalım modellerinde girdi olarak kullanılması, sağkalım ile ilişkili biyolojik yolakların belirlenmesine olanak sağlar. Literatürde sunulan yöntemler, ya biyolojik yolak bilgilerini kullanmadan genomik veriler üzerinde tahmin modelleri geliştirip sağkalım ile ilişkili genleri belirler ve ardından yolak bilgilerini kullanarak seçilen gen bilgisini yorumlar, ya da her bir yolak bilgisi için ayrı tahmin modelleri geliştirip sonrasında bilgilendirici olanları seçmeye çalışır. Ancak, bu tür iki aşamalı bir yaklaşımın izlenmesi, genomik karakterizasyonlar arasındaki yüksek korelasyon nedeniyle, seçilen genlerin bilinen biyolojik yolaklar ile başarılı bir şekilde eşleştirilmesine engel olabilmektedir. Ayrıca, her bir yolak için ayrı tahmin modellerinin geliştirilmesi, birbirleriyle oldukça benzer ya da ilintili yolakların seçilmesine yol açabilmektedir. Bu tezde, yukarıda bahsedildiği gibi iki aşamalı bir yöntem izlemek yerine, sağkalım analizi ve kanser ile ilgili biyolojik yolakların belirlenmesini aynı anda gerçekleştiren, ve sağkalım analizini yaparken yalnızca belirlenen biyolojik yolakları kullanan yeni yapay öğrenme yöntemleri önermekteyiz. Geliştirdiğimiz algoritmalar, sağkalım ile ilişkili olmayan biyolojik mekanizmaları modelden çıkararak, kanser hastalarının sağkalım süresi tahmini sırasında bilgilendirici olan biyolojik yolaklar için seyrek bir çözüm kümesi elde etmektedir. Algoritmalarımızı, Kanser Genom Atlası projesi kapsamında oluşturulan 20 farklı kanser verisi ve kansere özgü biyolojik yolak bilgilerini içeren iki farklı veri tabanını kullanarak test etmekteyiz. İlk olarak, çoklu çekirdek öğrenimi yardımı ile biyolojik yolak bilgilerini modele ekleyen bir sağkalım analizi yöntemi önermekteyiz. Yolakların belirlenmesini ve sağkalım analizini birleşik olarak gerçekleştiren algoritmamız, sağkalım analizi için geliştirilen Rassal Orman (RO) ve Destek Vektör Makinesi(DVM) algoritmalarına kıyasla daha başarılı ya da benzer tahmin performanslarını, çok daha az sayıda öznitelik kullanarak elde etmiştir. Çoklu görev öğrenimi yöntemlerinin yapay öğrenme algoritmalarının tahmin performansını arttırdığı bilinmektedir. Bu tezde, hem tahmin performansını arttırmak, hem de farklı kanser türlerini aynı anda modelleyerek, altta yatan ortak ya da benzer biyolojik sebepleri belirlemek adına, geliştirmiş olduğumuz çoklu çekirdek öğrenme tabanlı sağkalım analizi yöntemini çoklu görev öğrenimi ile birleştirmekteyiz. Çoklu görev öğrenme tabanlı algoritmamız; RO, DVM ve geliştirdiğimiz çoklu çekirdek öğrenme tabanlı algoritmamıza kıyasla, daha başarılı ya da benzer tahmin performansları elde ederek, farklı kanser türleri için altta yatan benzer biyolojik mekanizmaları belirlemektedir. Bu tezde ek olarak, altta yatan benzer mekanizmalara sahip kanser öbeklerini belirlemek adına, geliştirdiğimiz çoklu görev çoklu çekirdek öğrenme tabanlı sağkalım analizi algoritmamızı öbekleme yöntemiyle birleştirmekteyiz. Bu amaç doğrultusunda, farklı kanser türlerinin kümelenmesi, sağkalım analizi ve bilgi çıkarımı adımları için birleşik bir matematiksel model önermekteyiz. Kümeleme tabanlı algoritmamız; RO, DVM, çoklu çekirdek öğrenme ve çoklu görev çoklu çekirdek öğrenme tabanlı sağkalım analizi algoritmalarımıza kıyasla daha başarılı ya da benzer tahmin performansları elde ederek, birbirleriyle benzer altta yatan sebeplere sahip kanser türlerini içeren öbekleri belirlemektedir. Kümele algoritmamız tarafından kullanılan öznitelik sayısı; RO, DVM ve çoklu görev çoklu çekirdek öğrenme algoritmamıza kıyasla çok daha az sayıdadır. Elde ettiğimiz bu sonuçlarla, bu tezde sunmuş olduğumuz hayatta kalma ile ilişkili biyolojik mekanizmaları belirleyen yöntemlerimizin, literatürdeki yolak bilgilerini kullanmadan genomik veriler üzerinde geliştirilen sağkalım yöntemlerinden daha başarılı tahmin performansları elde ettiğini göstermekteyiz. Ayrıca, literatürdeki yöntemlere kıyasla, daha az sayıda öznitelik kullanarak tahmin işlemlerinin gerçekleştirilebileceğini ispatlamaktayız. Ek olarak, tahmin performansını düşürmeden, benzer altta yatan sebeplere sahip olan farklı kanser türlerini de öbekleyebilmekteyiz.

Özet (Çeviri)

Using genomic characterizations of tumours biopsied from cancer patients has a great importance in understanding the formation and progression mechanisms in cancer. Survival analysis is one of the research methods that is used to predict overall survival time of cancer patients and to understand the aforementioned progression mechanisms. High dimensional structure of the genomic characterizations with the limited number of training samples makes survival analysis a challenging task. To be able to identify the survival associated biological mechanisms, cancer-specific pathway/gene set collections can be integrated into machine learning models. Existing approaches usually follow a two-stage approach that either identify predictive genes using a feature selection method and map these selected genes to known pathways/gene sets, or train separate models for each pathway/gene set and try to pick informative ones considering each model's predictive performance. Following such a two-stage approach might result in inefficacy of mapping selected genes to a known biological pathway/gene set due to highly correlated structure between feature groups or including related or very similar pathways/gene sets into the final model due to analyzing each pathway/gene set separately. In this thesis, rather than following such two-stage approaches, we propose machine learning models that can conjointly identify disease related biological mechanisms and perform survival prediction using only these identified biological mechanisms. Our algorithms obtain a sparse set of pathways/gene sets for the survival associated biological mechanisms by eliminating the uninformative ones from the model. We test our algorithms using 20 cancer datasets obtained from The Cancer Genome Atlas and two cancer-specific pathway/gene set collections as input data. We first propose a survival analysis model that integrates pathway/gene set collection into the model using multiple kernel learning. Our algorithm with conjoint modelling approach obtains statistically significantly better or comparable predictive performances against survival random forest (RF) and survival support vector machine (SVM) using significantly fewer gene expression features. Predictive performances of machine learning algorithms can be increased using multitask learning. For this purpose, we extend our multiple kernel learning-based algorithm towards multitask learning. Our multitask learning algorithm both models multiple cancer datasets simultaneously and integrates cancer related biological mechanisms into the machine learning model. The algorithm is able to identify common underlying biological mechanisms for cancer by obtaining better or comparable predictive results against survival RF, survival SVM, and our multiple kernel learning survival analysis algorithm. We also extend our multitask learning algorithm towards task clustering to identify the groups of cancer types that share similar underlying biological mechanisms. To this aim, we propose a unified formulation for task clustering, survival analysis, and knowledge extraction. Our clustering algorithm identifies relevant cancer groups by obtaining statistically significantly better or comparable predictive performances against survival RF, survival SVM, our multiple kernel learning and multitask multiple kernel learning survival analysis algorithms. Numbers of gene expression features and gene sets used by our clustering algorithm are significantly fewer than those of benchmark algorithms. These results show that our methods that identify survival associated biological mechanisms, obtain better or comparable predictive performances against survival analysis methods developed on genomic data without using the pathway/gene set information in the literature. In addition, we prove that survival prediction can be performed using fewer number of gene expression features compared to these benchmark algorithms. We also identify the cancer groups that share similar biological mechanisms without decreasing the predictive power.

Benzer Tezler

  1. Optimization models to identify key RNA regulatory modules in cancer

    Kanserde anahtar RNA düzenleme modüllerini tanımlamak için optimizasyon modelleri

    MILAD MOKHTARIDOOST

    Doktora

    İngilizce

    İngilizce

    2021

    BiyoistatistikKoç Üniversitesi

    Endüstri Mühendisliği ve Operasyon Yönetimi

    DOÇ. DR. MEHMET GÖNEN

  2. GR6J hidrolojik modelindeki artık yağış ayrıştırma sabitinin model kalibrasyonuna etkisi

    Effect of residual rainfall separation constant on model calibration in the GR6J hydrological model

    HALİL İBRAHİM DEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET CÜNEYD DEMİREL

  3. Interrogation of the functionality of ERα binding sites with STARR-seq

    Östrogen reseptör α bağlanma bölgelerinin STARR-seq ile sorgulanması

    ELİF YAPICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Moleküler TıpKoç Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖZDE KORKMAZ

    DOÇ. DR. NATHAN A. LACK

  4. Sağkalım analizinde kırılganlık modellerinin tahmini için parçacık sürü optimizasyonuna dayalı alternatif bir yaklaşım

    An alternative approach to estimation of frailty models in survival analysis based on particle swarm optimization

    ÖYKÜM ESRA AŞKIN

    Doktora

    Türkçe

    Türkçe

    2016

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ALİ HAKAN BÜYÜKLÜ

    DOÇ. DR. DENİZ İNAN

  5. Multi-objective optimization model for trade-offs in construction projects

    İnşaat projelerinde ödünleşimler için çok amaçlı optimizasyon modeli

    HARUN TÜRKOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜL POLAT TATAR