Geri Dön

Efficient machine learning models for cancer biology

Kanser biyolojisi için etkin yapay öğrenme modelleri

  1. Tez No: 736573
  2. Yazar: AYYÜCE BEGÜM BEKTAŞ
  3. Danışmanlar: DOÇ. DR. MEHMET GÖNEN
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Yakın geçmişte yapay öğrenme için birçok çoklu çekirdek öğrenimi yöntemi önerilmiştir. Çekirdek genel anlamda bir benzerlik ölçütüdür; çoklu çekirdekler de bir veri kümesi için farklı kaynaklardan sağlanan ayrı benzerlik ölçütleri olarak düşünülebilir. Çoklu çekirdek öğrenimi ise özetle farklı kaynaklardan gelen çoklu benzerlik ölçütlerini öğrenme modeline dahil etmektedir. Bu tez, çoklu çekirdek öğrenimi için üç yeni yöntem önermekte ve bu yöntemlerin kanser veri kümeleri üzerinde gerçekleştirilmiş deneylerini raporlamaktadır. Kanser çağımızın en yaygın ve ölümcül hastalıklarından biridir. Kanser hastalarında, yeni hastalık tedavi kılavuzlarının belirlenmesi için hastalığın ilerleyişinin altında yatan moleküler mekanizmaların tanımlanması ön şarttır. Mevcut yapay öğrenme modellerinin performans sonuçları ümit vadediyor olsa da, eş zamanlı olarak verinin anlamlı ve kayda değer kısımlarının tespiti ile öğrenme işinin yapılması, çözümü zor bir problemdir. Bu zorluk temel olarak genomik verilerin çok boyutlu, yüksek korelasyonlu ve doğrusal olmayan ilişkileri içeren yapısıyla ilişkilidir. O halde, kanser ilerlemesini tahmin eden bir model kurulurken bu modelin bir öncül bilgi kümesiyle (örneğin, yolak/gen kümesi bilgileri) birlikte çalışabilmesi, bu öncül bilgi kümesinin kanser ilerleyişi için önemli olan kısımlarının öğrenirken bulunmasına ihtiyaç vardır. Sonuç olarak altta yatan moleküler dinamiklerin anlaşılmasıyla, kanserin ilerlemesinin ve agresifliğinin daha iyi anlaşılması beklenmektedir. Bu tezde ilk olarak eniyileme ve çoklu çekirdek öğrenimini birlikte kullanan yeni bir yapay öğrenme modeli önermekteyiz. Öncül bilgi olarak kanser yolak/gen kümesi bilgisi kullanıldığında, bu öncül bilginin önce önemli kısımlarının seçilip sonra öğrenme işinin yapılması yerine, eş zamanlı olarak öncül bilgiden önemli kısımları çıkararak öğrenme işini gerçekleştiren bir algoritma geliştirdik. Bu algoritmayı Kanser Genom Atlası tiroit kanseri hasta verisi üzerinde kanser için özel olarak hazırlanmış yolak/gen kümesi öncül bilgilerini kullanarak test ettik. Yeni çoklu çekirdek öğrenimi algoritmamızın tahmin performansının temel referans algoritması olarak seçtiğimiz rassal orman (RO) ve regresyon destek vektör makinesi (RDVM) algoritmalarının tahmin performanslarıyla karşılaştırabilir ve hatta onların tahmin performanslarından daha iyi olduğunu gösterdik. Ayrıca, önerdiğimiz algoritmanın bu performansı RO ve RDVM algoritmalarının kullandıklarının onda birinden daha az öznitelik kullanarak gösterdiğini; çalışılan kanser türüne ilişkin önemli yolak/gen kümesi bilgilerini belirlediğini gösterdik. Öte yandan, algoritma tarafından seçilen genlerin ekspresyonlarını tümör ve normal dokularda karşılaştırdık; tümör dokusunda normale göre daha fazla veya daha az ifade edilen genlerin yeni biyolojik belirteç bulunması açısından nasıl faydalı olabileceği konusunu tartıştık. Bu tezde ayrıca yeni bir hızlı, ölçeklenebilir ve yorumlanabilir çoklu yaklaşıklanmış çekirdek öğrenimi (ÇYÇÖ) yöntemi sunduk. Hesaplamalı biyoloji alanında gün geçtikçe gelişen veri toplama araçları ve büyüyen hasta kohortları ile veri boyutları hızla artmaktadır. Sağladığı yorumlanabilme ve verideki doğrusal olmayan ilişkileri yakalayabilme özellikleri sayesinde biyolojik veri analizinde özellikle tercih edilen çekirdek temelli öğrenme algoritmaları ölçeklenebilir olmadıklarından büyüyen veri kümesi boyutlarıyla birlikte çalışmamaya başlamışlardır. Bu problemi çözmek için hızlı ve etkin, büyük ölçekli veri ile kullanıma uygun, çekirdek yaklaşıklama ve grup Lasso tekniklerini birlikte yeni bir şekilde kullanan bir algoritma geliştirdik. Bu yöntem etkin bir şekilde sınıflandırma yapmayı öğrenirken genomik verinin anlamlı ve kayda değer kısımlarını belirlemektedir. Çekirdek matrislerini hesaplamak yerine yaklaşıkladığı için artan veri kümesi boyutlarıyla kullanıma uygun ve ölçeklenebilirdir. ÇYÇÖ yöntemini Kanser Genom Atlası'ndan çoklu kanser hasta kohort verilerini kullanarak oluşturduğumuz iki veri kümesi üzerinde ve melanoma tek hücre dizileme verisi üzerinde test ettik. ÇYÇÖ yönteminin temel referans algoritmanın performansından daha üstün bir performansa girdi özniteliklerin yalnızca çok küçük bir kısmını kullanarak ulaştığını gösterdik. Ayrıca, yolak/gen kümelerinin ilişkili olduğu yaklaşıklanmış çekirdeklerin seçilme sıklığını çalışılan sınıflandırma problemi için bu yolak/gen kümelerinin önemini işaret etmek amacıyla raporladık. Bu hızlı ve yorumlanabilir çoklu çekirdek öğrenimi yöntemi ve yolak/gen kümesi temelinde verdiği seyrek ve anlamlı bilgiler ile yüksek korelasyonlu genomik veri kümelerinin analizinin kolaylaşması sağlanmıştır. Bu yöntemin, daha önceden analizi yapılamayan büyük veri kümeleriyle çalışmayı mümkün kılarak yeni tedavi kılavuzlarının hazırlanması ve yeni biyolojik belirteçlerin bulunması konusunda yardımcı olması beklenmektedir. Literatüre bir diğer katkı olarak bu tez, yeni bir çoklu yaklaşıklanmış öbekleme yöntemi sağlamaktadır. Çekirdek temelli öbekleme yöntemleri genomik veri analizi için öncül bilgi ile bütünleşerek yorumlanabilirlik sunmaları ve verideki doğrusal olmayan ilişkileri bulmaya yardımcı olmaları açısından önemli gözetimsiz öğrenme yöntemleridir. Bu amaçla, ölçeklenebilir bir çoklu yaklaşıklanmış çekirdek k-ortalama öbekleme yöntemi geliştirdik. Bu yöntem çekirdek yaklaşıklama yapıp k-ortalama öbekleme algoritmasıyla bu yaklaşıklamayı birleştirmektedir. Algoritmamızı test etmek için Kanser Genom Atlası veri kümelerinden çoklu kohort genomik verisini birleştirdik. Algoritma, öbekleme sonuçlarını iyileştirmek için“silhouette”katsayısını eniyilerken öncül bilginin önemli kısımlarını bulmak üzerine tasarlanmıştır. Öbekleme için oluşturduğumuz bu tekniğin sonuçlarını test etmek üzere, tüm veri kümesine k-ortalama öbekleme yöntemini uyguladık. 19814 geni kullanan referans deneyin sonucu yalnızca dört gen kümesinden gelen bilgiyi kullanarak öbekleme yapan önerdiğimiz öbekleme algoritmasından %35,8 daha az çıkmıştır. Önerilen öbekleme algoritmasının sonuçları literatür verileri ile desteklenmektedir. Kolay kullanılabilirliği ve ölçeklenebilir olması ile bu çalışma yeni kanser alt tiplerinin ve yeni tedavi yöntemlerinin keşfedilmesi açısından umut vericidir.

Özet (Çeviri)

In the recent past, a variety of multiple kernel learning algorithms has been proposed in machine learning literature. A kernel corresponds to a measure of similarity between the data instances while multiple kernels correspond to multiple different measures of similarity. Learning with multiple kernels, in brief, serves to perform learning while integrating different inputs originated from different feature representations. This thesis contains three main extensions to original multiple kernel learning framework together with their implementations on cancer data sets. Identification of molecular mechanisms that determine tumor progression in cancer patients is a prerequisite for developing new disease treatment guidelines. Even though the predictive performance of current machine learning models is promising, extracting significant and meaningful knowledge from the data simultaneously during the learning process is a difficult task considering the high-dimensional and highly correlated nature of genomic data sets. Thus, there is a need for models that not only predict tumor volume from gene expression data of patients but also use prior information coming from pathways/gene sets during the learning process to distinguish molecular mechanisms that play crucial role in tumor progression and disease prognosis. In this thesis, we demonstrate a novel machine learning algorithm, PrognosiT, that combines optimization and kernel learning. Instead of initially choosing several pathways/gene sets from a candidate set and training a model on this previously chosen subset of features, our proposed algorithm accomplishes both tasks together. We tested our algorithm on thyroid carcinoma patients using gene expression profiles and cancer-specific pathways/gene sets. Predictive performance of our novel multiple kernel learning algorithm was comparable or even better than random forest (RF) and support vector regression (SVR). It is also notable that, to predict tumor volume, PrognosiT used gene expression features less than one-tenth of what RF and SVR algorithms used. We demonstrated that during the learning process, our algorithm managed to extract relevant and meaningful pathway/gene set information related to the studied cancer type, which provides insights about its progression and aggressiveness. We also compared gene expressions of the selected genes by our algorithm in tumor and normal tissues, and we then discussed up- and down-regulated genes selected by our algorithm, which could be beneficial for determining new biomarkers. The thesis also provides a novel multiple approximate kernel learning framework, namely, MAKL, that is fast, scalable and interpretable. Data set sizes in computational biology have been increased drastically with the help of improved data collection tools and increasing size of patient cohorts. Previous kernel-based machine learning algorithms proposed for increased interpretability started to fail with large sample sizes, owing to their lack of scalability. To overcome this problem, we proposed MAKL, a fast and efficient multiple kernel learning algorithm to be particularly used with large-scale data that integrates kernel approximation and group Lasso formulations into a conjoint model. Our method extracts significant and meaningful information from the genomic data while conjointly learning a model for out-of-sample prediction. It is scalable with increasing sample size by approximating instead of calculating distinct kernel matrices. To test MAKL, we demonstrated our experiments on three cancer data sets (i.e., created using multiple cancer cohort data sets from The Cancer Genome Atlas (TCGA) consortium and a melanoma single-cell data set) and showed that MAKL is capable to outperform the baseline algorithm, extreme gradient boosting, while using only a small fraction of the input features. We also reported selection frequencies of low-dimensional approximation matrices associated with feature subsets (i.e., pathways/gene sets), which helps seeing their relevance for the given classification task. Our fast and interpretable MKL algorithm producing sparse solutions is promising for computational biology applications considering its scalability and highly correlated structure of genomic data sets, and it can be used to discover new biomarkers and new therapeutic guidelines. As another contribution, this thesis provides a novel multiple approximate kernel clustering framework. Kernel-based clustering algorithms are essential to genomic data analysis since they provide detection of nonlinear relationships within the data while offering interpretability using one or more prior information sources. With this motivation, we designed a scalable multiple approximate kernel k-means clustering framework that is compatible with large-scale data sets and combines kernel approximation and k-means clustering approach into the same model. To test our algorithm, we combined information from multiple cancer cohorts provided by TCGA consortium. Our algorithm extracts relevant parts of the prior information to the clustering task while maximizing the silhouette score to improve the clustering results. To test the findings of our clustering framework, we performed k-means clustering on the full data set as a baseline method. The silhouette score resulted from the baseline experiment was 35.8% lower than the one resulted from our algorithm which uses information from only four gene sets instead of all 19 814 genes. Results of our proposed algorithm are supported by the existing literature and our approach is promising to be an easy and efficient way to provide sparse and interpretable results while integrating prior information as approximation matrices to k-means algorithm in a novel way, which may give hope to discover new cancer subtypes and insights related to novel cancer treatment options.

Benzer Tezler

  1. Efficient optimization algorithms for computational biology

    Hesaplamalı biyolojide etkin eniyileme algoritmaları

    OĞUZ CAN BİNATLI

    Doktora

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri MühendisliğiKoç Üniversitesi

    Endüstri Mühendisliği ve Operasyon Yönetimi

    PROF. DR. MEHMET GÖNEN

  2. Development and application of novel machine learning approaches for RNA-seq data classification

    RNA dizileme verilerinin siniflandirilmasinda yeni makine öğrenimi yaklaşimlarinin geliştirilmesi ve uygulanmasi

    GÖKMEN ZARARSIZ

    Doktora

    İngilizce

    İngilizce

    2015

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. ERDEM KARABULUT

    DOÇ. DR. AHMET ÖZTÜRK

  3. Makine öğrenmesi özellik seçimi (anova-boruta) ve sınıflandırma yaklaşımlarıyla pan-kanserde potansiyel mikroRNA biyobelirteçlerinin belirlenmesi

    Identification of potential microRNA biomarkers in pan-cancer using machine learning feature selection and classification approaches

    MELİKE KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyolojiEge Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. SAVAŞ İZZETOĞLU

  4. Investigating the effect of different feature selection strategies for classification of gene expression signatures of tumor cells

    Tümör hücrelerin gen ifade imzalarinin siniflandirilmasina ilişkin farkli özellik seçim stratejilerinin etkisinin incelenmesi

    ABUBAKHARI SSERWADDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Biyoistatistikİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  5. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK