Determining novel target genes in WNT/𝛽-catenin signaling pathway using machine learning
WNT/beta-catenin sinyal yolağında makine öğrenmesi ile hedef genler belirlenmesi
- Tez No: 739767
- Danışmanlar: DR. ÖĞR. ÜYESİ ANDRES OCTAVIO ARAVENA DUARTE
- Tez Türü: Yüksek Lisans
- Konular: Genetik, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Moleküler Biyoloji ve Genetik Ana Bilim Dalı
- Bilim Dalı: Moleküler Biyoloji ve Genetik Bilim Dalı
- Sayfa Sayısı: 144
Özet
Wnt/Beta-catenin, evrimsel açıdan korunmuş, hücre bölünmesinde ve farklılaşmasında önemli rol oynayan bir sinyal yolağıdır (Logan 2004). Wnt sinyal yolağı, hücre proliferasyonu, kök hücre farklılaşması, primer eksen oluşumu ve embriyonik gelişimden yetişkin doku homeostazına kadar çok sayıda süreci düzenler. Bu sinyal yolağında meydana gelen aksaklıklar, farklı kanser türlerine, Alzheimer hastalığına sebep olmakta, ayrıca embriyonik gelişimde sorunlar meydana getirmektedir (Clevers 2006; De Ferrari 2000). Literatürde birden fazla Wnt sinyal yolağının varlığı gösterilmiştir. Bunlar kanonik ve kanonik olmayan Wnt yolakları şeklinde ayrılmışlardır. Bütün bu yolaklar Wnt ligandları tarafından tetiklenmektedirler. Wnt/Beta-catenin yolağı beta-catenin molekülünü içerir ve kanonik Wnt sinyal yolağıdır. Bu çalışmada Wnt/Beta-catenin sinyal yolağına odaklananılmıştır ve takip eden bölümlerde kısaca Wnt sinyal yolağı şeklinde adlandırılacaktır. Wnt genleri tüm metazoalarda görülmektedir. Memelilerde her biri farklı işleve sahip 19 adet Wnt geni bulunmaktadır. Bu genlerin ürünü olan Wnt proteinleri ligand gibi hareket ederek hücre yüzeylerindeki reseptörlere bağlanırlar. Wnt ligandları frizzled reseptörleri tarafından algılanır (Niehrs 2012). Wnt sinyal iletimi otokrin ya da parakrin şekilde olabildiği gibi çoğunlukla bu sinyaller kısa mesafeli olarak hareket ederler. Wnt proteinlerinin, diğer bir deyişle sinyallerinin tetiklemesiyle başlayan bu sinyal yolağı hedef genlerin transkripsiyonel kontrolü ile sona erer. Wnt sinyali ile tetiklenmemiş normal bir hücrede sitozolde bulunan serbest beta-cateninler yıkım kompleksi tarafından yıkılır. Yıkım kompleksi Axin, adenomatöz polipozis koli (APC), glikojen sentaz kinaz beta (GSK3-beta), protein fosfataz 2A (PP2A) ve kazein kinaz 1 (CK1) moleküllerinden oluşmaktadır. CK1 ve GSK3-beta molekülleri beta-catenini fosforiller. Devamında beta-catenin β-Trcp adlı molekül tarafından tanınır ve ubikitinlenir (Liu 2002). Bu süreç beta-cateninlerin proteozomal yıkımını gerçekleştirir. Wnt tarafından tetiklenmemiş bir hücrede beta-catenin seviyeleri oldukça düşük tutulur. Hücre Wnt sinyali ile tetiklendiğinde yıkım kompleksi dağılır ve işlevsiz hale gelir. Bu durum sitozolde serbest beta-cateninlerin birikmesine sebep olur (Cadigan 1997). Serbest beta-cateninler nukleusa hareket eder ve nukleusta TCF/LEF transkripsiyon faktörleri ile etkileşime geçer (Polakis 2000). Tetiklenmemiş bir hücrede TCF/LEF transkripsiyon faktörleri korepresör groucho ile birlikte hedef genlerin anlatımını baskılar (Hoppler 2007). Beta-catenin TCF/LEF transkripsiyon faktörlerine bağlanarak birlikte Wnt hedef genlerinin transkripsiyonunu aktive ederler. Beta-catenin ve TCF/LEF kompleksi Wnt hedef genlerinin yakınlarında bulunan cis-regülatör bölgelere bağlanırlar (Nusse 2012). Bu tip genlere doğrudan Wnt sinyali hedef geni olarak adlandırılır. Anlatımı Wnt sinyal yolağı tarafından dolaylı olarak etkilenen genlere ise dolaylı hedef gen adı verilir. Doğrudan hedef genlerin üstünde çok çalışılmış olmasına karşılık dolaylı hedef genler dair bulunan bilgiler azınlıktadır. Bu durum bu tip hedef genlerin tespitindeki zorluklardan kaynaklanmaktadır. Wnt hedef genleri dokuya veya gelişim evrelerine özeldir. Bir hücre tipinden diğer hücre tipine değişebilmektedirler (Boonekamp 2021; Nakamura 2016; Söderholm 2021). Hedef genler çeşitli deneyler ile keşfedilir veya doğrulanırlar. Microarray, RNA-seq ve qPCR yöntemleri hedef genlerin anlatım düzeylerini ölçmede; ChIP, Raportör gen yöntemi ve EMSA TCF/LEF bağlanma bölgesinin varlığını saptamada kullanılır. TCF/LEF bağlanma bölgesine sahip her gen hedef olmayabilir. Bu transkripsiyon faktörüne ait bağlanma bölgesi içeren bazı genler, beta-catenin üretiminin tetiklendiği deneylerde yeterli değişim göstermeyebilirler. Bu durum henüz bilinmeyen interaksiyonlar sebebiyle gerçekleşebilir. Bu sebeple sadece tüm genom üzerinde bağlanma bölgesi aramak hedef gen tespitinde eksik kalmaktadır. Wnt sinyal yolağı bağırsaklardaki homeostasinin korunması adına hücre bölünmesini ve farklılaşmasını yöneten önemli faktörlerden biridir. Wnt sinyal iletimindeki bozukluklar bu hızla değişen sistemde tümörlerin oluşmasına yol açabilir. İnce bağırsak villus ve kript adı verilen yapılardan oluşur. Villuslar besinlerin emiliminden sorumlu iken kriptlerde ise yeni hücreler üretilir. Wnt sinyal yolağı bu yeni hücre üretiminde rol alan sinyal yolaklarından biridir. Bu çalışma, insanda kolorektal kanser bağlamında Wnt sinyal yolağında yeni hedef genleri tanımlamayı amaçlamaktadır. Daha önceki çalışmalar, Wnt sinyal yolağındaki hedef genlerin anlatımının dokuya ve hastalığa bağlı olarak değişebildiğini öne sürmektedir. Bu nedenle, hedef genler dokuya özgü olabilmektedir. Bu fikri takiben bu çalışmada, Wnt sinyali yolağı kolorektal kanser bağlamında çokça çalışıldığı için odak noktası olarak kolorektal kanseri seçilmiştir. Bu alanda gen ekspresyon verileri diğer doku ve kanser türlerine göre daha fazladır. Ayrıca, bu bağlamda çok sayıda deneysel olarak doğrulanmış hedef gen bulunmaktadır. Bu tezde, genomik ve transkriptomik verileri kullanarak bir makine öğrenmesi modeli eğitilmiştir ve bu model yeni hedef genler tahmin etmek için kullanılmıştır. Klasik makine öğrenmesi yöntemleri pozitif ve negatif örnekler kullanır, ancak bu bağlamda yalnızca pozitif örnekler mevcut bulunmaktadır. Bu çalışmada bu duruma özel bir yöntem kullanılmıştır. Bu çalışmada Hödar ve diğerlerinin (2010) bu durum için kullandığı yöntem genişletilerek yeni Wnt sinyal yolağı hedef genlerinin tespitinde kullanılmıştır. Eğitim için, hakemli dergilerde yayınlanmış, bazı kolorektal kanser hücre hatlarından elde edilen transkriptomik diferansiyel anlatım verilerini kullanılmıştır. Ön araştırmada kolorektal kanser hücre hatlarında Wnt/beta-katenin yolağının uyarıldığı gen anlatımı deneyleri (Microarray ve RNA-seq) derlenmiştir. Bu veri kümeleri makine öğrenmesi modelini eğitmek için kullanılmıştır. Literatür araştırmasında kolorektal kanser ile ilişkili 93 adet doğrulanmış hedef gen tespit edildi ve bu genler pozitif örnek olarak kullanılmıştır. Bu bilgiler, daha önce aday olarak olarak gösterilmemiş yeni hedef genlerin tespiti için kullanılmıştır. Makine öğrenmesi, modellere dayanarak verileri sınıflandırılabilen ve üzerinde tahminlerde bulunabilen algoritmalar oluşturulması ve test edilmesi gibi konulara odaklanan bir Yapay Zeka dalıdır. Modelleri“eğitmek”için mevcut verileri kullanılır, ardından bu modeller tahminler yapmak ve yeni vakaları sınıflandırmak için kullanılır. Makine öğrenmesi modelleri, başka yollarla keşfedilmesi zor olabilecek örüntüleri“görebilir”ve ilgilendiğimiz konular hakkında bazı iç görüler sağlayabilir. Genel anlamda veriler, her biri özellikler veya değişkenler olarak da adlandırılan çeşitli nitelikler içeren bir dizi bireysel gözlemden oluşur. Makine öğreniminde, gözlemlere dayalı tümevarımsal bir akıl yürütme yapmak için değişkenler veya nitelikler kullanılır (Liu 2013). Veri, sayısal ya da kategorik değerler olabilen özelliklerin bir koleksiyonudur. Bu küme ayrıca gözlemin sınıfını belirten bir etiket özelliğini de içerir. Eğitilen sınıflandırıcı, eğitim sırasında kullanılan özelliklere dayalı olarak yeni gözlemlerin etiketlerini tahmin eder. Bu çalışmadaki sınıflandırma problemi klasik sınıflandırma problemlerine kıyasla bir takım farklılıklar göstermektedir. Bir dizi pozitif ve negatif örnek yerine, gerçekte daha fazlasının olduğu düşünülen yalnızca pozitif örneklerin bir alt kümesi mevcut bulunmaktadır. Pozitif örnekler, literatür araştırmasında derlenen, Wnt sinyal yolağının deneysel olarak doğrulanmış hedef genleridir. Gerçek anlamda negatif örnekler bulunmamaktadır. Sadece pozitif örnekler bulunmakta ve genlerin geri kalanının Wnt sinyal yolağı hedef geni olup olmadığı ise belirsizdir. Bu sorunun üstesinden gelebilmek için doğrulanmış hedef genleri pozitif örnek olarak, negatif örnekleri ise doğrulanmış hedef genlerin dışında kalan tüm bilinen genler içerisinden çeşitli büyüklükte alt kümeler olarak seçilmiştir. Buradaki pozitif ve negatif adlandırması eğitime dair verinin sınıfını belirtmeye yönelik bir terim olarak kullanılmıştır. Herhangi bir biyolojik anlam içermemektedir. Ortaya koyduğumuz hipoteze göre bilinmeyen hedef genlerin sayısı çoğunlukta değildir. Bu hipotez, rastgele bir örneğin muhtemelen yalnızca hedef olmayan genleri içereceğini, ancak bazen bunlardan bazılarının gerçek hedefler olabileceğini fikrini desteklemektedir. Bu çalışmada rastgele örnekleme kullanıldığı için varyasyonu kontrol altına almak adına her biri rastgele seçilmiş negatif örnekler içeren (her bağımsız sınıflandırıcı için farklı negatif örnekler) 500 ya da 1000 adet birbirinden bağımsız sınıflandırıcı havuzu eğitilmiştir. Havuzdaki her sınıflandırıcı, hangi genlerin“pozitif”örneklerin özelliklerini paylaştığına bağımsız olarak karar verir. Deneyin sonunda, her gen, onu hedef gen olarak ilan eden sınıflandırıcıların sayısına karşılık gelen bir puan alır. Bu puan 0 ile 500 (veya havuzdaki sınıflandırıcı sayısına bağlı olarak 1000) arasında bir sayıdır. Daha yüksek puanlar, daha yüksek bir hedef olma olasılığına karşılık gelir. İzlenilen yöntemin doğruluğunu test etmek adına negatif kontrol kullanılmıştır. Bu sefer tüm genlerin içerisinden rastgele“sahte”pozitif örnekler seçilmiştir. Önceki eğitim aşamaları, pozitif örneklerin rastgele seçilmiş olması haricinde aynı şekilde tekrar edilmiştir. Bu kontrolü, yöntemin ortaya koyduğu sonuçların rastgele olmadığını, sonuçların sadece doğrulanmış hedef genler örnek olarak kullanıldığında ortaya çıkacağını göstermek için gerçekleştirilmiştir. Makine öğrenme sürecini doğrudan etkileyen bazı parametreler bulunmaktadır. Bu tip parametrelere hiper parametre adlandırılmaktadır. Optimal hiper parametreleri bulmak için sınıflandırıcıları farklı hiper parametre değerleriyle eğitilmiştir. Örnek boyutu hiper parametresi seçilen negatif örneklerin sayısını belirtmektedir. Sayıları 800, 1000, 1200, 1500, 2000, 3000, 5000 ve 8000 olan örnekler farklı eğitim turlarında test edilmiştir. Elimizdeki veri küçük sayıdaki pozitif örneklere (N=93) karşılık büyük sayıda negatif örnekler (geriye kalan tüm genler N≅20.000) içerdiğinden çok sayıda negatif örnek sonuçları saptırabilir. Bu durumu telafi etmek adına yanlış sınıflandırma için farklı penalizasyonlara (bazen ağırlıklar da denir) sahip bir kayıp fonksiyonu kullanılmıştır. Farklı eğitim turlarında 1, 5, 10, 20, 50, 100 ve 200 değerlerini penalizasyon olarak test edilmiştir. Belirtilen yöntemler kullanılarak eğitimler 4 turda gerçekleştirilmiştir. Birinci eğitimde @Hdar2010 'ın çalışmasında kullandığı veri kullanılmıştır. İkinci eğitimde yine aynı çalışmada kullanılan transkripsiyon faktörü bağlanma bölgesi parmak izi matrisi ve yapılan ön araştırmada derlenen doğrulanmış Wnt sinyali hedef genleri kullanılmıştır. Üçüncü ve dördüncü eğitimlerde derlenen doğrulanmış hedef genleri ve sırasıyla analiz edilen RNAseq ve RNAseq-Microarray verileri kullanılmıştır. Her bir oturumda, hiper parametre kombinasyonuna bağlı olarak en iyi performans gösteren sınıflandırıcılar seçilmiştir. Toplamda yeni hedef genler belirten 4 adet liste elde edilmiştir. Bu çalışmanın sonucunda pek çok ilginç aday hedef genler belirlenmiştir. Bunlardan en önemli iki tanesi PTCH1 ve GLI3 genleridir. Bu genler Hedgehog sinyal yolağının 2 önemli bileşenini oluşturmaktadır. Özellikle yakın zamanda yapılan bir çalışma PTCH1 geninin kolon spesifik Wnt sinyali hedef geni olduğunu öne sürmektedir. Bu durum Wnt sinyal yolağının bu genlerin transkripsiyonunu kontrol ederek iki sinyal yolağı arasında kolorektal kanser bağlamında bir iletişimin gerçekleşebileceğini göstermektedir. CDH1, FN1, VIM, TBX3, TNFRSF19, GLUT3 tespit ettiğimiz aday Wnt sinyali hedef genleri içerisinde yer almaktadır. Bu genler kolorektal kanser hücrelerinde doğrulanmadıkları için doğrudan Wnt sinyali hedef genleri listemizde yer almamakla birlikte başka dokularda doğrudan Wnt sinyali hedef geni olarak tespit edilmişlerdir. Yapılan bir kaç farklı kolorektal kanser araştırmasında tespit ettiğimiz hedef genler ile bu çalışmalarda sözü edilen genler arasında örtüşme tespit edilmiştir. Belirlediğimiz Wnt sinyal yolağı hedef genlerinin çeşitli biyolojik deneyler ile doğrulanması gerekmektedir. Bulgularımız kullandığımız metod ve verinin doğruluğunu destekler niteliktedir.
Özet (Çeviri)
The Wnt signalling pathway is a driving force of proliferation and differentiation. Aberrant behaviour in this pathway may lead to several types of cancers and Alzheimer's disease. This pathway controls the transcription of target genes via modulating the presence of Betacatenin in cytosol, which triggers the TCF/LEF transcription factor. We found 93 target genes identified experimentally in the colorectal cancer context, and new target genes are constantly being discovered. This study aims to identify novel target genes of the Wnt/Beta-catenin signalling pathway using a machine learning approach. We analysed several publicly available Microarray and RNA-seq experiments and used the differential gene expression data to represent the genes. We used the experimentally validated target genes as“positive”examples in training. We chose the“negative”examples randomly from the rest of the genes. We trained pools of 1000 independent classifiers using the Classification and Regression Tree (CART) method. Then each trained classifier was used to assign a“positive”or“negative”label for each gene. The number of times each gene is classified as“positive”is a score that can be tested using the Fisher method. Thus, we found a set of putative target genes having an expression pattern very similar to known target genes. The pool of trained classifiers predicted 144 putative novel target genes. Some of the highest scoring genes are PTCH1, GLI3 and SOX4. The first two predictions, PTCH1 and GLI3, are important components of the Hedgehog Signalling. This suggests a possible interplay between Wnt and Hedgehog signalling in colorectal cancer. In parallel to our study, experimental researchers have reported that PTCH1 is a colon specific Wnt target. We present a bioinformatic method that can be used to predict target genes of the canonical Wnt signalling pathway, and eventually other pathways, based only on gene expression data and a sample of experimentally validated targets. This method narrows the set of genes that should be experimentally validated. Moreover, some of our predictions have already been validated by other studies.
Benzer Tezler
- In silico target determination and identification of novel agents against chemoresistant acute lymphoblastic leukemia
Kemoresistan akut lenfoblastik lösemiye karşı ın sılıko yöntemle yeni ajanların hedef belirlenmesi ve tanımlanması
BAŞAK ÖZAY
Yüksek Lisans
İngilizce
2024
Biyomühendislikİzmir Ekonomi ÜniversitesiBiyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAĞMUR KİRAZ DURMAZ
- Development and structural determination of antiangiogenic recombinant antibody structures for cancer treatment
Kanser tedavisine yönelik antianjiogenik rekombinant antikor yapılarının geliştirilmesi ve yapısal tayini
MELİS DENİZCİ ÖNCÜ
Doktora
İngilizce
2022
Biyomühendislikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. GİZEM DİNLER DOĞANAY
DR. AYLİN ÖZDEMİR BAHADIR
- İnsan PUF60'ın biyoinformatik araçların kullanımıyla ileri analizi
Further analysis of human PUF60 via bioinformatic tools
İREM BRENNAN
Yüksek Lisans
Türkçe
2024
BiyolojiEge ÜniversitesiSağlık Biyoinformatiği Ana Bilim Dalı
DOÇ. DR. BUKET KOSOVA
- Primer immün yetmezliğe sahip hastaların klinik, immünolojik ve moleküler genetik değerlendirilmesi ve yeni tanımlanan varyantlar
Clinical, immunological and genetic evaluation of patients with primary immunodeficiency, with identification of novel variants
AHMET BURAK ARSLAN
Tıpta Uzmanlık
Türkçe
2023
GenetikNecmettin Erbakan ÜniversitesiTıbbi Genetik Ana Bilim Dalı
PROF. DR. MAHMUT SELMAN YILDIRIM
- Akciğer kanserinde moleküler tedavi hedeflerinin saptanması amaçlı ve yeni nesil dizileme tabanlı tanı kiti
Next generation sequencing based diagnosis kit for determining the molecular targets of therapy in lung cancer
TEVFİK HATİPOĞLU
Yüksek Lisans
Türkçe
2016
BiyoteknolojiAnkara ÜniversitesiTemel Biyoteknoloji Ana Bilim Dalı
PROF. DR. FATMA AJLAN TÜKÜN