Gene set-based classification models for cancer biology
Kanser biyolojisi için gen kümesi tabanlı sınıflandırma modelleri
- Tez No: 642245
- Danışmanlar: DOÇ. DR. MEHMET GÖNEN
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği ve Operasyon Yönetimi
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 160
Özet
Dünya çapında en yaygın ve ölümcül hastalıklardan biri olan kanser, on yıllardır biyomedikal araştırmaların odak noktası olmuştur. Çeşitli nedenler dolayısıyla ortaya çıkan birçok farklı kanser tanımlanmış, incelenmiş, bu kanserler için birçok tedavi yöntemi ve ilaç geliştirilmiştir. Bununla birlikte, kanser mekanizmalarını anlama konusunda birçok çözümlenmemiş soru bulunmaktadır. Yüksek verimli dizileme teknolojilerinin ortaya çıkması ve kanser hastalarından toplanan genomik bilgilerin sürekli artan kullanılabilirliği ile araştırmacılar, kanserlerin teşhisi, prognozu ve tedavisinde genomik bilgiyi başarıyla kullanmışlardır. Yine de çok sayıda gen, bunların arasındaki yüksek korelasyon ve kanserlerin heterojenliği düşünüldüğünde tek başına genomik bilgi, genellikle kanserler için yorumlanabilir modeller üretmekte yetersiz kalmaktadır. Bu etkileri hafifletmek için, yolaklar, kanser modellerine dahil edilebilir. Bu tezde, yolakları kullanarak kanserlerin ilerlemesi ve hayatta kalma sonuçları için yorumlanabilir modeller üreten sınıflandırma yöntemleri geliştirdik. Hastaların vücutlarında yaşamları boyunca bir dizi tümör oluşur ve büyür. Ama tümörlerin hepsi hastanın hayatı için tehlike oluşturmaz. Uygulayıcılar ve araştırmacılar kanserin ciddiyetini ifade etmek için evreleme kuralını kullanır. Kanserin bulunduğu evre, komşu doku ve genel olarak vücuttaki yayılma seviyesini belirler; erken evreler lokal tümörleri, geç evreler ise vücuda yayılım göstermiş kanserleri kapsar. Bu nedenle, kanserleri erken aşamalardan ileri aşamalara neyin yönlendirdiğini anlamak, kanserin mekanizmalarını anlamada önemli bir sorudur. Benzer şekilde bir hastanın sağkalım profili, kanserin şiddetini ölçümlendirebilmek için kullanılabilir ve hastanın hayatta kalma şansını etkileyen mekanizmaları anlamak tedavi stratejileri geliştirmede son derece önemlidir. Bu çalışmada, kanserler için sınıflandırma modellerine yolakları entegre etmek için çoklu çekirdek öğrenimini kullanıyoruz. Bu yöntem, yolak bilgilerini kullanmayan geleneksel yöntemlerle üretilen modellere kıyasla daha doğru ve daha yorumlanabilir modeller geliştirilmesine olanak tanır. Daha sonra modellerin doğruluğunu ve yorumlanabilirliğini geliştirmek için bu yöntemi çeşitli yönlere genişletiyoruz. Bu tezin ikinci bölümünde, çözümlerin seyreklik seviyesinin büyük ölçüde kanserden kansere farklılık gösterebileceğini ve genellikle yöntemlerin parametrelerinden sadece dolaylı olarak etkilendiğini gözlemleyerek, ayarlanabilir bir seyreklik ölçüsü olan bir model geliştiriyor ve bu problemin örneklerini çözmek için hızlı çözüm yöntemleri öneriyoruz. Tezin üçüncü bölümünde, kanserler arasında bilinen benzerlikler göz önüne alındığında, çok sayıda veriye sahip benzer kohortları kullanarak sınırlı veriye sahip kohortların sınıflandırma doğruluğunu iyileştirmek ve çok görevli sınıflandırma modelleri oluşturmak için bir çerçeve geliştirdik. Son olarak, bu yöntemlerin algoritmik performansını çok görevli ve bir çok kanserde birlikte düşünmekten kaynaklanan büyük ölçekli problemlere başarılı bir şekilde uygulanabilecekleri noktaya getirmek için kesen düzlem yöntemi ve Benders ayrıştırması gibi eniyileme tekniklerini kullanıyoruz. Bu yöntemlerin pratik uygulamasını, 27 kanser türü için Kanser Genom Atlas veri kümelerinde yukarıda belirtilen iki sınıflandırma problemine uygulayarak inceledik. Bu deneylerin sonuçları, bu sınıflandırma problemlerine yolakların dahil edilmesinin daha yorumlanabilir ve daha doğru modeller üretmeyi kolaylaştırdığını, kanserlerin benzerliğinin aynı amaçlara yönelik çok görevli bir çerçeve kullanılarak geliştirilebildiğini ve burada geliştirilen eniyileme yöntemlerinin paralelleştirme teknolojilerini kullanarak etkin zamanda büyük ölçekli problemlerin çözümüne olanak verdiğini göstermiştir.
Özet (Çeviri)
As one of most prevalent and fatal diseases worldwide, cancer has been the focus of biomedical research for many decades. A wide range of different cancers with various causes have been identified and studied, and many treatment methods and drugs have been developed for these cancers. However, many open questions remain in understanding the mechanisms of cancer. With the advent of the high throughput sequencing technologies and the ever-increasing availability of genomic information gathered from cancer patients, researchers have successfully employed genomic information in diagnosis, prognosis and treatment of cancers. Still, given the large number of genes, their considerable correlation and the heterogeneity of cancers, genomic information alone often falls short of generating interpretable models for cancers. To alleviate these effects, pathways can be incorporated into models of cancer. In this thesis, using pathways, we have developed classification methods that produce interpretable models for progression of cancers and survival outcome. Patients usually experience the growth of a number of tumors in their life-time. However, not all these tumors pose a danger to the patient's life. To communicate the severity of the cancer, practitioners and researchers use the staging convention. The stage of a cancer encodes the level of its spread in the neighboring tissue and the body in general, where early-stages are assigned to local tumors and late-stages to the cancers that have spread in the body. Hence, understanding what drives cancers from early- to late-stages is an important question in understanding the mechanisms of cancer. The survival outlook of a patient is a similar measure for the severity of a cancer and understanding the mechanisms that affect the survival chances of a patient is immensely important in devising treatment strategies. In this work, we use multiple kernel learning for integrating pathways into the classification models for cancers. This allows for developing models that are more accurate and far more interpretable compared to models generated by conventional methods that do not use the pathway information. We then extend this method in several directions to improve accuracy and interpretability of the models. In the second part of this thesis, observing that the level of sparsity of the solutions can differ largely from caner to cancer and is often only indirectly affected by the parameters of the methods, we develop a model with an adjustable measure of sparsity and propose efficient solution methods for solving instances of this problem. In the third part of this thesis, given the known similarities between cancers, we develop a framework for building multitask classification models to improve the classification accuracy of cohorts with limited data using the similar cohorts with abundant data. Finally, we employ optimization techniques such as the cutting-plane method and Benders decomposition to improve the algorithmic performance of these methods to the point that they can be applied successfully to large-scale problems stemming from considering several cancers together in a multitask framework. The practical application of these methods is examined by applying them to the two aforementioned classification tasks across the Cancer Genome Atlas datasets for 27 cancer types. The results of these experiments indicate that the incorporation of pathways into these classification problems facilitates generating more interpretable and more accurate models, the similarity of cancers can be leveraged using a multitask framework towards the same goals, and the optimization methods developed here allow for solving these large-scale problems in efficient time using parallelization technologies.
Benzer Tezler
- Efficient machine learning models for cancer biology
Kanser biyolojisi için etkin yapay öğrenme modelleri
AYYÜCE BEGÜM BEKTAŞ
Doktora
İngilizce
2022
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET GÖNEN
- Efficient optimization algorithms for computational biology
Hesaplamalı biyolojide etkin eniyileme algoritmaları
OĞUZ CAN BİNATLI
Doktora
İngilizce
2024
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği ve Operasyon Yönetimi
PROF. DR. MEHMET GÖNEN
- Metabolism-oriented multiomics data integration
Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu
AYCAN ŞAHİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ALİ ÇAKMAK
- Destek vektör regresyonu ile PID kontrolör tasarımı
Design of PID controller via support vector regression
KEMAL UÇAK
Yüksek Lisans
Türkçe
2012
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLAY ÖKE
- Boruta ve Elastik Ağ Algoritmalarının Gen Seçim Performanslarının RNA Dizileme Veri Setleri Üzerinde Karşılaştırılması: Bir Monte Carlo Benzetim Çalışması
Comparison of Gene Selection Performances of Boruta and Elastic Net Algorithms on RNA Sequencing Data: A Monte Carlo Simulation Study
ÖZGÜR SAMAN
Yüksek Lisans
Türkçe
2023
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. OSMAN DAĞ