Identifying functionally important missense mutations in cancer by dynamics-based analysis and predicting pathogenicity/disease category of missense mutations
Kanserde fonksiyonel öneme sahip yanlış anlam mutasyonların dinamik tabanlı analizle belirlenmesi ve yanlış anlam mutasyonların patojenite/hastalık kategorisinin tahmin edilmesi
- Tez No: 667994
- Danışmanlar: DOÇ. DR. MEHMET GÖNEN
- Tez Türü: Doktora
- Konular: Biyofizik, Biyoistatistik, Biyoloji, Biophysics, Biostatistics, Biology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
Yanlış anlam mutasyonlarının protein yapıları üzerinde çeşitli etkilerinin yanı sıra protein dinamiğini etkileyerek de protein işlev bozukluklarına yol açabilir. Kanserle ilgili genlerdeki yanlış anlam mutasyonların kolektif yapısal dinamiklerini düzenleyen menteşe-komşu rezidülarını seçici olarak hedef aldığını varsaydık. Hipotezimizi test etmek için, Cancer Gene Census (CGC) veritabanından kanserle ilgili 69 geni ve Protein Data Bank'tan temsilci protein yapılarını seçtik. İlk olarak, Gauss Ağ Modelini uygulayarak iki küresel hareket modunda menteşe rezidülarını tanımladık. Daha sonra, yanlış anlam mutasyonlarının, onkojenlerdeki ve tümör baskılayıcı genlerdeki menteşe-komşu rezidülar üzerinde önemli ölçüde zenginleştiğini gösterdik. Birkaç onkojenin (ör., MAP2K1, PTPN11 ve KRAS) ve tümör baskılayıcı genlerin (ör., EZH2, CDKN2C ve RHOA) bu fenomeni güçlü bir şekilde sergilediğini gözlemledik. Daha sonra, the Cancer Genome Atlas (TCGA) veri setini kullanarak menteşe rezidülarının etrafındaki yanlış anlam mutasyonların önemli ölçüde zenginleştirilmiş üç boyutlu (3B) kümelenmesini tespit etmek için hesaplamalı bir işlem hattı geliştirdik. Menteşe rezidüları, 1 ve 5 arası modlar için bir Gauss Ağı Modeli uygulanarak tespit edildi. TCGA'dan yaklaşık 10.000 tümördeki somatik yanlış anlam mutasyonların sistematik olarak analiz ederek, iyi bilinenlere ek olarak aday sürücü genleri ve mutasyonları belirledik. Örneğin, CDK4, CDKN2A, TCL1A ve MAPK1 dahil olmak üzere bilinen kanser genlerinde yanlış anlam mutasyonların önemli ölçüde zenginleştirilmiş 3B kümelenmesini bulduk. Bilinen bu sürücü genlerin yanı sıra, PLA2G4A'daki menteşe rezidülarının etrafındaki yanlış anlam mutasyonlarının önemli ölçüde zenginleştirilmiş 3B kümelenmesini de belirledik. Bu kümelenme hücre dışı sinyalle düzenlenen kinazların aşırı fosforilasyonuna yol açabilir. Sonuçlarımız, menteşe rezidüları etrafında kümelenmenin, bilinen kanser genlerindeki mutasyonların işlevsel rolünü açıklamamıza ve aday sürücü genleri/mutasyonları belirlememize yardımcı olabileceğini göstermektedir. Ayrıca, yanlış anlam mutasyonları için patojenite tahmini için menteşe tabanlı olarak adlandırdığımız yeni öznitelikler önerdik ve menteşe tabanlı özniteliklerin patojenite tahminini ilerlettiğini gösterdik. İnsan yanlış anlam varyantlarının patojenite tahmini zorlu bir problem olmaya devam etmektedir. Mevcut hesaplama modelleri, temelde, verilen yanlış anlam varyantların zararlı veya nötr olup olmadığını tahmin eden ikili sınıflandırıcılardır. Sadece patojeniteyi değil, aynı zamanda verilen yanlış anlam varyantlarının hastalık kategori tipini de öngören çok etiketli bir sınıflandırma yöntemi gösterdik. Dahası, mevcut hesaplama modelleri sekans, yapısal veya protein dinamiğine dayalı analize dayanmaktadır. Ayrıca proteinlerin ağ topolojik özelliklerinin, yanlış anlam varyantların patojenikliğini belirlemeyi önemli ölçüde iyileştirdiğini de gösterdik. PathDis modelimizi 20.361 yanlış anlam varyantla eğitip test ettik. Daha sonra, aynı veri setini kullanan başka bir tahminleme modeliyle ROC eğrisi altındaki ortalama alan (AUROC) metriğine göre kıyasladık. PathDis modelimizin AUROC'u %3 oranında iyileştirdiğini gözlemledik. Ardından PathDis'i farklı bir veri kümesiyle test ettik. Ayrıca, bu farklı veri kümesine dayalı olarak literatürdeki başka tahminleme modelleriyle kıyaslayarak PathDis'in AUROC değerinin ikinci en yüksek AUROC değerinden yaklaşık %3 daha yüksek olduğunu gözlemledik. PathDis, yüksek patojenite tahmin sonuçlarına ek olarak, hastalık kategorisi türlerini (yani, Hastalık Yok, Kanser ve Kanser Olmayan) tahmin etmede yaklaşık %79 doğruluğa sahiptir. Bir tahmin modeli sunmanın yanı sıra, yanlış anlam varyantları, hastalık kategorisi türleri için sekans, yapı, dinamik ve ağ tabanlı özniteliklerimizle de karakterize ettik. Sekans tabanlı, ağ tabanlı ve yapı/dinamik tabanlı özelliklerin sırasıyla Hastalık Yok, Kanser ve Kanser Olmayan yanlış anlam varyantlarını karakterize ettiğini gözlemledik.
Özet (Çeviri)
Missense mutations have various effects on protein structures, also leading to distorted protein dynamics that plausibly affects the function. We hypothesized that missense mutations in cancer-related genes selectively target hinge-neighboring residues that orchestrate collective structural dynamics. To test our hypothesis, we selected 69 cancer-related genes from the Cancer Gene Census (CGC) database and their representative protein structures from the Protein Data Bank. We first identified the hinge residues in two global modes of motion by applying the Gaussian Network Model. We then showed that missense mutations are significantly enriched on hinge-neighboring residues in oncogenes and tumor suppressor genes. We observed that several oncogenes (e.g., MAP2K1, PTPN11, and KRAS) and tumor suppressor genes (e.g., EZH2, CDKN2C, and RHOA) strongly exhibit this phenomenon. Next, we developed a computational pipeline to detect significantly enriched three-dimensional (3D) clustering of missense mutations around hinge residues by using the the Cancer Genome Atlas (TCGA) dataset. The hinge residues were also detected by applying a Gaussian network model for the modes 1 to 5. By systematically analyzing the PanCancer compendium of somatic missense mutations in nearly 10,000 tumors from TCGA, we identified candidate genes and mutations in addition to well known ones. For instance, we found significantly enriched 3D clustering of missense mutations in known cancer genes including CDK4, CDKN2A, TCL1A, and MAPK1. Besides these known genes, we also identified significantly enriched 3D clustering of missense mutations around hinge residues in PLA2G4A, which may lead to excessive phosphorylation of the extracellular signal-regulated kinases. Our results show that the consideration of clustering around hinge residues can help us explain the functional role of the mutations in known cancer genes and identify candidate genes. Furthermore, we proposed new features, named hinge-based, for pathogenicity prediction for missense mutations and show that hinge-based features improve pathogenicity prediction. Pathogenicity prediction of human missense variants remains a challenging problem. Existing computational models are basically binary classifiers predicting whether given missense variants are deleterious or neutral. We demonstrated a multilabel classification method that predicts not only the pathogenicity but also the disease category type of given missense variants. Moreover, existing computational models are based on sequence-, structural-, or protein dynamics-based analysis. We also showed that network topological properties of proteins significantly improve determining the pathogenicity of missense variants. We trained and tested our model PathDis with 20,361 missense variants. Then, we benchmarked by the area under the ROC curve (AUROC) evaluation metric score with a well-established prediction model which uses the same dataset. We observed that our model PathDis improves AUROC by 3%. Then, we tested PathDis with a different dataset. Also benchmarking based on this different dataset against other well-established prediction models demonstrated that PathDis' AUROC score is approximately 3% higher than the second highest AUROC score. In addition to high pathogenicity prediction results, PathDis has approximately 79% accuracy for predicting the disease category types (i.e., No Disease, Cancer, and Non-Cancer). Besides introducing a prediction model, we also characterized the missense variants by our sequence-, structure-, dynamics-, and network-based features for the disease category types. We observed that sequence-based, network-based, and structure-/dynamics-based features characterize No Disease, Cancer, and Non-Cancer missense variants, respectively.
Benzer Tezler
- Applications of evolutionary bioinformatics in basic and biomedical research
Temel ve biyomedikal araştırmalarda evrimsel biyoinformatik uygulamalar
OGÜN ADEBALİ
Doktora
İngilizce
2015
GenetikThe University of TennesseeMoleküler Biyoloji ve Genetik Ana Bilim Dalı
PROF. DR. IGOR B. JOULINE
- Nöronal seroid lipofuksinozis tip 2 (CLN2) hastalığının moleküler temellerinin belirlenmesi
Determination of Molecular Basis of Neuronal Ceroid Lipofuscinosis Type 2 (CLN2) Disease
BETÜL TEKER
- Correlations between function changing mutations in glucocorticoid receptor's evolution and their significance to mode coupling
Glukokortikoid almaç evriminde işlev değişimine yol açan mutasyonların mod etkileşimi ile korelasyonu ve mod etkileşimi açısından önemi
BATUHAN KAV
Yüksek Lisans
İngilizce
2015
BiyofizikKoç ÜniversitesiFizik Ana Bilim Dalı
YRD. DOÇ. DR. ALKAN KABAKÇIOĞLU
- Bias correction in finding copy number variation with using read depth-based methods in exome sequencing data
Dizi derinliği yöntemi kullanılarak kopya sayısı farklılıklarını tespit etmede ekzom dizileme datalarında varolan etkilerin düzeltilmesi
FATMA BALCI
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. CAN ALKAN
- Hot regions in protein?protein interactions and analysis of hot region distribution in hub proteins
Protein-protein etkileşimlerinde sıcak bölgeler ve merkez düğümlerdeki sıcak bölge dağılımlarının incelenmesi
ENGİN ÇUKUROĞLU
Yüksek Lisans
Türkçe
2011
BiyoistatistikKoç ÜniversitesiFen Bilimleri Ana Bilim Dalı
PROF. DR. ÖZLEM KESKİN