Geri Dön

Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data

Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı

  1. Tez No: 687060
  2. Yazar: ERSİN ONUR ERDOĞAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Computer Engineering and Computer Science and Control, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Üniversitesi-Cerrahpaşa
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Kanser, kontrolsüz hücre çoğalması sebebiyle doku veya organlarda oluşan hastalıkların bütüncül adıdır. Dünya üzerindeki en ölümcül hastalıklardan birisi olan kanser, her yıl milyonlarca insanın ölümüne sebep olmaktadır. Kanserin daha iyi anlaşılması için, birtakım kavramların and mekanizmaların detaylıca açıklanması gerekmektedir. Hücreler, kendi içlerinde sentezledikleri proteinler aracılığıyla işlevlerini yerine getirir. Proteinler, DNA üzerinde bir nükleotid dizisi olarak bulunan talimatlara göre sentezlenir. DNA'nın, protein üretimi bilgisini taşıyan bu kodlama bölgelerine, gen denir. Bir hücrenin normal işleyişi proteinlere, dolayısıyla hücrenin içerdiği genlere dayanır. Proteinler, hücresel görevlerin çoğunu gerçekleştiren and doku-organların yapısı and düzenlenmesi için gerekli olan makromoleküllerdir. Proteinler, gen olarak depolanan bir dizi talimata göre sentezlenir. RNA polimeraz enzimi bir genin başlangıcına bağlanır and nükleotidleri okuyarak gen boyunca devam eder. RNA polimeraz nükleotidleri okurken, hücre çekirdeğinde bu nükleotidlere karşılık gelen serbest bazları birbirine bağlar and haberci RNA adı verilen bir molekül oluşturur. mRNA molekülü, gen üzerindeki nükleotidlere karşılık gelen nükleotid dizisini aynı sırayla taşır. Bu nedenle, mRNA'yı oluşturan bazların sırası, DNA dizisi tarafından belirlenir. DNA'nın kodlama bölgesinin bir mRNA molekülüne kopyalanması işlemine transkripsiyon denir. Transkripsiyon işleminden sonra mRNA çekirdekten çıkar and Ribozom organelinde işlenir. Ribozom, her seferinde 3 baz okuyarak mRNA'yı işler and her üçlü nükleotid grubuna karşılık gelen amino asitleri birbirine bağlar. Bu işleme translasyon denir. Son üçlü nükleotid grubu işlendikten sonra, meydana gelen amino asit zinciri katlanır and Protein adı verilen 3 boyutlu şekle sahip bir molekül oluşturur. Gen olarak depolanan talimatların protein yapmak için kullanıldığı sürece gen ifadesi (ekspresyonu) denir. Kanser, bir hücrenin normal işleyişinin değiştiği hastalıkların bütünüdür. Hücrelerde meydana gelen genetik and epigenetik değişiklikler nedeniyle ilgili proteinlerin üretim miktarı normal aralığından sapar. Moleküler seviyede meydana gelen bu değişiklikler sonucunda gerekli proteinlerin eksik veya fazla üretimi, veya beklenmedik proteinlerin üretimi, hücrelerin normal işleyişini bozar. DNA'nın genetik değişiklikleri, nokta mutasyonlarını, kromozomal mutasyonları and kopya sayısı varyasyonlarını içerir. Nokta mutasyonları, tek bir nükleotidin belirli bir DNA bölgesinden silindiği, bir DNA bölgesine eklendiği veya başka bir nükleotidle değiştirildiği mutasyonlardır. Kromozomal mutasyonlar, bir kromozom segmentinin silinmesini, yer değiştirmesini, çoğaltılmasını and tersine çevrilmesini ihtiva eder. Bu mutasyonlar, hücrelerin, hücrenin işlev bozukluğuna yol açacak anormal proteinler üretmesine neden olur. Kopya sayısı varyasyonları, DNA'da bulunan gen sayısının çeşitliliğini ifade eden mutasyonlardır. Bir genin normalden fazla veya az sayıda kopyasının DNA üzerinde bulunması, gene karşılık gelen proteinin normalden az veya çok sentezleneceği anlamına gelir. Sonuç olarak, hücrelerin işlevinde bozulmalar meydana gelir. Epigenetik değişiklikler, DNA dizisinde yapısal herhangi bir değişiklik olmaksızın genlerin işleyişinde meydana gelen farklılaşmaları ifade eder. DNA'nın protein kodlayan bölgelerindeki dizi aynıdır, fakat bu bölgelere erişim, çeşitli sebeplerden ötürü (örneğin, metil gruplarının bu bölgelere bağlanması) engellenir. Dolayısıyla DNA dizisi değişmez, fakat yine de ilgili proteinler, bilgiyi taşıyan DNA bölgesine erişilemediği için sentezlenemez. Bu durum aslında, tamamı birebir aynı DNA dizisini taşıyan hücrelerin, vücuttaki farklı doku and organları oluşturmak amacıyla farklılaşması için gereklidir. Epigenetik, aynı genetik materyallere sahip hücrelerin, belirli genleri etkinleştirerek veya devre dışı bırakarak farklı işlevler gerçekleştirmesine izin veren doğal bir olgudur. Fakat çevresel koşullar sebebiyle meydana gelen anormal epigenetik değişiklikler, bir hücrenin normal işleyişini değiştirebilirler. Epigenetik değişiklikler geri döndürülebilir bozulmalara neden olurken, genetik değişikliklerin neden olduğu anormallikler onarılamaz. Hücre çoğalması, bir organizmanın yaşamının devamı için gerekli olan normal süreçlerden biridir. Fakat genetik and epigenetik bozulmalar, diğer işlevleri etkilediği gibi hücre bölünmesini de, hücrelerin anormal bir hızda büyümesine and bölünmesine sebep olacak şekilde etkiler. Kontrolsüz çoğalan hücre grubu genişleyerek -neoplazm olarak da bilinen- tümör dokusunu oluşturur. Normal hücrelerin, kansere dönüştüğü bu sürece tümörijenez veya karsinojenez denir. Tümörler iyi huylu and kötü huylu tümörler olarak iki gruba ayrılır. Kanserli olmayan tümörler olarak da bilinen iyi huylu tümörler, yakındaki dokuları istila etmeyen and vücudun diğer bölgelerine yayılmayan tümör türüdür. İyi huylu tümörler bir operasyonla alındıktan sonra genellikle tekrarlamazlar. Kötü huylu tümörler ise bitişik olduğu dokuları istila edebilen and vücuda yayılabilen kanserli tümörlerdir. Kanserli hücrelerin kan dolaşımı veya lenfatik sistem yoluyla yayılmasına metastaz denir. Bu nedenle malign tümörler hayatı tehdit eden tümör türüdür. Malign tümörler, fenotipik and moleküler özellikler bakımından farklı hücre grupları içerebilir. Bir tümör içindeki farklı anormal hücre grupları Tümör İçi Heterojenite (TİH) ile ifade edilir. Normal bir hücre, uğradığı mutasyon sonucunda kanser hücresine dönüşerek kontrolsüz bir şekilde çoğalır. Kontrolsüz çoğalan kanser hücreleri, aynı yapıya sahip hücreler bütününü oluşturur. Fakat kanser hücreleri çoğaldığı esnada, içlerinden bazıları tekrar yapısal veya fonksiyonel bir değişime uğrar. Böylece aynı tümör dokusunda, yapısal veya fonksiyonel olarak bozulmuş olan iki çeşit hücre grubu ortaya çıkar. Bozulmalar ardışık bir şekilde devam ederek, benzersiz fenotipik and moleküler özelliklere sahip çok sayıda farklılaşmış hücre popülasyonlarını meydana getirebilir. Böylece tümör içindeki hücre grupları, homojenliğini kaybeder. TİH, tümör gelişimi, bağışıklık, terapötik direnç, ilaca veya ışın tedavisine verilen yanıt, tümör örnekleme sapması gibi birçok prognostik faktörle güçlü bir şekilde ilişkilidir. Bunun yanında TİH, hastaların hayatta kalma süreleri ile de önemli ölçüde ilişkilidir. Bu sebepten ötürü, Tümör İçi Heterojenite durumunun tespit edilmesi için çok sayıda çalışma yapılmaktadır. Bu tez çalışmasında, TİH ile ilişkili olan prognostik faktörleri, onlarla istatistiksel olarak anlamlı ilişkiler kurarak açıklayabilen bir yaklaşım öne sürülmektedir. Bu yaklaşım, TİH ile en kritik ilişkiye sahip olan, ortalama hayatta kalma süresini açıklamaya çalışmaktadır. Ayrıca, birtakım araçlar ile önceden hesaplanmış olan and TİH'in bir temsili olarak nitelendirilen alt klon sayıları, bu çalışmada ortaya konulan yöntemlerin sonucunda elde edilen veriler ile tahmin edilmektedir. Sağkalım analizinin açıklanması, çalışmanın ehemmiyetinin anlaşılması açısından esastır. Sağkalım analizi, bir olayın ne kadar süre sonra gerçekleşeceğini inceleyen bir istatistik dalıdır. Canlı biliminde sağkalım analizi, canlının ölümüne kadar geçen sürenin incelenmesini ifade eder. Sağkalım analizi, birden fazla ortak değişkenin, canlının hayatta kalma süresiyle olan ilişkisini gösterir. Bu çalışmada, gen expresyonu, DNA metilasyonu, protein sentezi, kopya sayısı and mutasyon verileri ile hastaların yaşları, ortak değişken olarak kullanılmaktadır. Önceden hesaplanmış and sağkalım ile önemli derecede ilişkili olan alt klon sayıları da ortak değişken olarak kullanılmaktadır. Çalışmada kullanılan gen expresyonu, DNA metilasyonu, protein sentezi, kopya sayısı and mutasyon verileri, her birine özgü bir dizi özelleşmiş süreçler sonucunda elde edilmektedir. İnsanlardan alınan örneklerin tam genom diziliminin çıkarılması and elde edilen verilerin analizi için, Biyoenformatik alanında birçok farklı yaklaşım geliştirilmektedir. Biyoenformatik, canlı bilimindeki çalışmaların, hesaplamalı bilimlerle ortak yürütüldüğü bir alt disiplindir. İlerleyen teknolojik gelişmelerin sonucu olarak ortaya çıkan Yeni Nesil Dizileme sayesinde, bir insanın genom diziliminin çıkarılması, konvansiyonel yöntemlere kıyasla son derece düşük maliyetli and hızlı bir süreç haline geldi. Böylece, yüksek verimli and hızlı hesaplama gücü olan makinelerin analiz edebileceği kadar çok miktarda veri üretildi. Genetik alanındaki problemlere çözüm üreten birçok yaklaşım evrilerek paradigma kaymasına uğramış oldu. Kanser Genom Atlası (The Cancer Genome Atlas - TCGA), Yeni Nesil Dizileme sayesinde büyük veriler üretip, bunları herkesin kullanımına açık olarak sunan and bu çalışmada kullanılan verilerin de alındığı platformdur. Bu platform, çok sayıda kurumun ortak çalışmasıyla elde edilen verileri yapılandırarak kullanıma açmıştır. 33 farklı kanser türünde, 10 binden fazla hastanın çeşitli genetik, epigenetik and proteomik verisini barındırır. Kanser hastalığında, hücrelerde moleküler seviyede meydana gelen bozulmalar, hücrelerin işleyişini bozduğu için, bu bozulmaların etkileri genomik, epigenomik and proteomik verilerde gözlemlenebilir. Bu çalışmanın temel motivasyonu, bu verilerde ortaya çıkan toplam sapma miktarının, ortalama sağkalım ile ilişkili olabileceği yargısıdır. Dolayısıyla bu çalışmada, omik verilerindeki toplam sapma miktarının, hastaların hayatta kalma süreleriyle ilişkisi incelenmektedir. Çalışmanın literatüre katkısı, omik verilerinin sapma miktarları hesaplanırken, olasılık dağılımının kullanılmasıdır. Olasılık dağılımı, bir dizi olay içerisinde belli bir olayın meydana gelme olasılığıdır. Omik verilerinde olasılık dağılımı, belli değerlerin mevcut olma olasılığını ifade eder. Örnek olarak, DNA'nın belirli bölgelerinde meydana gelen metillenme miktarını ifade eden metilasyon verisi ele alınsın. N tane hastanın aynı DNA bölgesindeki metillenme miktarı bir diziyi oluşturacak olursa, bu dizinin olasılık dağılımı, metillenme miktarına göre ortaya çıkar. Hastaların çoğunda m kadar metillenme olduysa, olasılık dağılımında bu hastalar için çıkan değer yüksek olacaktır. Aşırı düşük veya aşırı yüksek miktarda metillenme olursa, o hastalar için olasılık dağılımında çok düşük bir değer çıkacaktır. Dolayısıyla olasılık dağılımının tersi, metillenme miktarı ne kadar fazlaysa o kadar yüksek olacaktır. Olasılığın aşırı düşük olduğu durumlarda, olasılık fonksiyonunun tersinin alınması, aşırı yüksek bir değer üreteceğinden ötürü, bu değerin logaritması alınarak değer yumuşatılacaktır. Bu işlemin sonucunda, her hasta için tüm metilasyon sapma değerleri toplanarak o hasta için toplam metilasyon sapma endeksi çıkarılmış olacaktır. Bu sapma değerlerinin her omik verisi için üretilmesi sonucunda elde edilecek veri kümesinin, hem sağkalım analizinde anlamlı sonuçlar vermesi, hem de alt klon sayılarını tahminde başarılı olması beklenmektedir. TİH'in sağkalım ile ilişkili olması nedeniyle, bu çalışmada önerilen sapma endekslerinin, sağkalım ile bir ilişki kurup kurmadığı incelenmektedir. Pan-kanser sağkalım analizinde özelliklerin sağkalım ile önemli ölçüde ilişkili olduğu gösterilmektedir. Ayrıca her bir kanser türü için ayrı ayrı yapılan sağkalım analizlerinde, 10 kanser türü için, sapma endekslerinin sağkalım ile önemli ölçüde ilişkili olduğu ortaya çıktı. Özelliklerin yönleri and güçleri kanser türleri arasında farklılık göstermektedir. Ancak genel eğilim, mutasyon verisinden elde edilen sapma endeksi dışında, sapma endeksleri arttıkça ölüm riskinin artması yönündedir. İki kanser türü, PRAD and LUAD kanserler, genel eğilime gözle görülür biçimde zıt sonuçlar göstermektedir. Sağkalım analizi, kanser alt tipleri üzerinde de uygulanmış and sonuçlar kanser bazında yapılan analizlere benzer çıkmıştır. Göze çarpan bir olay, özelliklerin birbirini tamamlıyormuş gibi davranması olabilir. Bazı kanser türlerinin gen ekspresyonu yoluyla, bazı kanser türlerinin DNA metilasyonu yoluyla and bazılarının ise başka tür omik verilerle kendilerini gösterdiği söylenebilir. Ancak böyle bir iddia ortaya atılmadan önce aynı çalışmanın farklı veri setleri üzerinde uygulanarak doğrulanması gerekir. Makine öğrenmesi modeli sonuçları da, sapma endekslerinin, alt klon sayılarını tahmin etmede kullanışlı olduğunu göstermektedir. Topluluk (ensemble) yöntemlerinin başarılı bir şekilde (R-kare > 0.8) alt klon sayılarını tahmin ettiği tespit edilmiştir. Çalışmanın literatürdeki önemi ise, 33 kanser türünün tamamını, bazı kanser türlerinin alt tiplerini and gen ekspresyonu, DNA metilasyonu, protein sentezi, kopya sayıları and mutasyon verilerini içeren kapsamlı bir çalışma olmasıdır. Literatürde şimdiye kadar, prognostik belirteçler ile TİH arasındaki ilişki, gen ekspresyonu and mutasyon verileri kullanılarak incelenmiştir. Bu çalışmada, gen ekspresyonu and mutasyona ek olarak, DNA metilasyonu and protein sentezi verileri de kullanılmıştır. Çalışmanın önemli olmasının diğer bir nedeni ise, alt klon sayılarını tahmin eden çalışmaların, yine benzer şekilde sınırlı veri tipine göre yapılmasıdır. Son araştırmalarda, alt klon sayılarını tahmin ederken, çoklu omik verilerinin kullanılması önerilmiştir. Hem sağkalım analizinde, hem de alt klon sayılarının tahmininde bu çalışma, özellikle DNA metilasyonu and RPPA verisinin kullanılması and 33 kanser tipini kapsaması bakımından önem arz etmektedir. İleri çalışmalar için, bu yöntemlerin farklı veri setleri üzerinde uygulanarak doğrulanması üzerine odaklanılabilir.

Özet (Çeviri)

Cancer is the name of all the diseases related to the uncontrolled cell proliferation in a tissue or organ. It stems from the molecular alterations within the cells leading the intracellular mechanisms to deviate from its normal functioning. Intracellular functions are carried out by proteins. The molecular changes may cause over- or under-synthesis of some proteins. Therefore, the proteins that are produced in abnormal amount may disrupt many cellular functions and cause the cells proliferate aberrantly leading to a tumor constitution. Cancerous cells may undergo consecutive molecular alterations. Thus, several types of cancerous cell groups emerge within the same tumor. Intra-Tumor Heterogeneity (ITH) refers to the distinct groups of cells that a single tumor comprises. ITH is found to be associated with numerous prognostic factors including survival, tumor advancement, metastasis, immunity, therapeutic resistance, and drug response. Therefore, it is essential to quantify ITH to draw inferences about disease prognosis. Previously, ITH had been determined by visual examination of tumor samples. However, thanks to Next Generation Sequencing, which is a recent sequencing technology yielding various types of data regarding genomic, epigenomic and proteomic information of patients, many researchers are allowed to study on the determination of ITH through data science. There are the studies evaluating ITH according to merely gene expression and DNA mutation data. Besides, these studies are limited to only some types of cancer. This study proposes a novel approach to utilizing genomic, epigenomic and proteomic data sets for the purpose of establishing relationships with ITH-associated features. Owing to that survival is strongly associated with ITH, survival analysis is conducted by using the data sets that are transformed in such a way that they represent the overall aberrancy level of the tumor samples. This study aims to comprehend various molecular datasets including gene expression, DNA methylation, protein synthesis, CNV and SNV data. As it is based on multi-omics data and is a pan-cancer study, this study is expected to make significant contributions to the literature by spanning hitherto unfocused data types and cancer types. Furthermore, machine learning models are developed in order to predict the pre-calculated subclone numbers by using the transformed values of the datasets. Subclone numbers are determined based on tumor image data or mutation data. The approaches evaluating subclone numbers based on mutation data display significantly different results. For this reason, it is suggested to include more comprehensive data sets to produce preferable estimations. Besides, distinct data types such as DNA methylation and protein synthesis data have not been used to infer the subclone numbers so far. Therefore, multi-omics approaches are considered as potentially significant methods in estimating subclone numbers, rather than single molecular datasets. As it predicts the subclone numbers based on gene expression, DNA methylation, protein synthesis, CNV and SNV data, this study is expected to be a significant research for the literature. The results demonstrate that, the features calculated by the proposed method are strongly associated with the overall survival in several cancer types and pan-cancer scale. Besides, ensemble methods successfully predict the subclone numbers with > 0.8 R-squared score. It is suggested for further studies to focus on the validation of the transformation technique by applying them on different cancer data sets.

Benzer Tezler

  1. Design and deployment of deep learning based fuzzy logicsystems

    Derin öğrenme tabanlı bulanık sistemlerin geliştirilmesi ve uygulanması

    AYKUT BEKE

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR

  2. A machine learning approach to model subjective well-being from a psychological perspective

    Psikoloji bilimi yaklaşımıyla öznel iyi hal durumunun makine öğrenmesiyle modellenmesi

    NAİL ŞENBAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiGalatasaray Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SADETTİN EMRE ALPTEKİN

  3. Prediction of RNA editing sites by machine learning and role of RNA editing in functional disease mechanisms

    RNA düzenleme noktalarının makine öğrenimi ile tahmin edilmesi ve RNA düzenlemenin fonksiyonel hastalık mekanizmalarındaki rolü

    HÜSEYİN AVNİ TAÇ

    Doktora

    İngilizce

    İngilizce

    2024

    BiyoistatistikAcıbadem Mehmet Ali Aydınlar Üniversitesi

    Biyoistatistik ve Biyoinformatik Ana Bilim Dalı

    PROF. DR. UĞUR ÖZBEK

  4. Leveraging historical climate data and machine learningfor extreme precipitation forecasting

    Geçmiş iklim verilerini ve makine öğrenmesi yöntemlerini kullanarak aşırı yağış tahmini

    GÖKTUĞ ÖVREN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Hesaplamalı Bilimler Ana Bilim Dalı

    PROF. DR. MEHMET LEVENT KURNAZ

    PROF. DR. ŞEBNEM ÖZÜPEK PODNOS

    DOÇ. DR. TUĞBA ÖZTÜRK

  5. Makine öğrenimine dayalı akciğer kanserinin erken tanısında belirsizlik ölçeğinin tespiti

    Detection of the uncertainty scale in the early diagnosis of lung cancer based on machine learning

    SEMA ÜZÜLMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAFER ASLAN