Geri Dön

Variant pathogenicity prediction tool based on protein-protein interactions and the effects of variants on 3-dimensional protein structure:a model for monogenic autoinflammatory disorders

Protein protein etkileşimlerini ve varyantların 3 boyutlu protein yapısındaki etkilerini esas alan varyant patojenite tahmini

  1. Tez No: 676815
  2. Yazar: ABDULLAH ALPER BÜLBÜL
  3. Danışmanlar: PROF. DR. EDA TAHİR TURANLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
  12. Bilim Dalı: Moleküler Biyoloji-Genetik ve Biyoteknoloji Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Nadir hastalıklar populasyonlar arasında farklı sıklıkları vardır. Örneğin kistik fibroz Uzak Doğu populasyonunda az görülürken Avrupa populasyonunda daha yüksek görülmektedir. Genel olarak 2,000 kişide bir görülen hastalıklara nadir hastalıklar denir. Dünya genelinde 300 milyon kişi bilinen 7000 nadir hastalıktan bir tanesinin hastasıdır. Bu 7000 hastalığın çoğunluğu genetik tabanlı ve erken yaşta ortaya çıkmaktadır. Bu gruptaki birçok hastalıkların prognosis ve genetik yatkınlığı tam olarak aydınlatılamamıştır. Örneğin Ailesel Akdeniz Ateşi hastalığı ile MEFV genini ilişkilendirilmektedir. Fakat hastaların %20'sinde bilinen FMF ilişkili MEFV mutasyonu bulunmamaktadır. Önemi bilinmeyen varyantların teşisi büyük önem arz etmektedir. Bunun için SAID hastalıklarına spesifik geliştirdiğimiz mutasyon tahmin aracının yararlı olacağını ön görmekteyiz. Variant of unknown significange (VUS) lar complex hastalıklarda veya genetik hastalıklarda tam olarak benign veya pathojenik sınıflandırmaya girememiş fakat hastalıkla ilişkili olduğu bilinen mutasyonlardır. Bu mutasyonların hastalıkla nasıl ilişkili olduklarını incelemek için expresyon analizleri (RNA-seq, RT-PCR), hücre içi lokasyonlarının değişimi gözlemlenmesi (in situ Proximity Ligation Assay (PLA)) protein protein etkileşimlerinin incelenmesi (Yeast-two-hibrid, imminopresipitation base methods(Tandem affinity purification)) gerekmektedir. Bunun yanında komputasyonal olarak mutasyonların benign veya pathojenik olduklarını tahmin etmek için geliştirilen tahmin araçları kullanılmaktadır. Monogenik otoinflamatuar hastalıklardaki mutasyonları içeren Infevers database ine baktığımız zaman toplamda 2502 mutasyon bulunmaktadır. Bu mutasyonlardan missense bening olanların sayısı 137 dir. Pathojenik missense mutasyonaların sayısı ise 589 dur. Bununla birlikte toplam VUS ların sayısı 471 dir. 471 VUS mutasyonun 420 si missense VUS dur. Bu sonuçtan da anlaşıldığı gibi missense mutasyonların hastalıklara etkisini belirlemek indel, çerçeve kayması veya nonsense mutasyonlara görece daha zordur. Monogenic hastalıklardaki missense mutasyonları belirlemek için geliştirdiğimiz mutasyon tahmin aracı da missense mutasyonların pathojenik veya benign durum tahmini yapmaktayız. İnsan genomunun referans dizisindeki değişikliklerin fenotipe etkileri çeşitli yollarla olmaktadır. Örneğin DNA üzerindeki metilasyon bölgeleri olan CpG adalarındaki değişiklik o locusun promoter olarak görev aldığı genin ürünlerinin miktarını etkilemektedir. Mutasyonların başka bir etkiside exonic bölgedeki değişimlere neden olmalarıdır. Ekzonik bölgedeki bu varyasyonlar organizmaların fonksiyonel ve yapısal birimi olan proteinlerde yapısal değişikliğe neden olmaktadır. Bu varyasyonlar proteinlerin görevlerini yapmak için gerekli olan protein - protein etkileşim özelliklerini değiştirebilmektedirler. Bu tez çalışmasında etkileşim özelliklerinin değişikliklerini göz önünde bulundurarak varyant patojenite testi geliştirmek hedeflenmiştir. Proteinlerin doğal olarak gerçekleştirdikleri interaksiyonlar intact ve STRING veri tabanlarından alınmıştır. Proteinlerin 3 boyutlu modelleri trRosetta ab-initio, şablonsuz modelleme aracı ile elde edilmiştir. Bu çalışmayı diğer mutasyon tahmin araçlarından ayıran bir diğer özellik ise yapısal ve dizi temelli özelliklerin (delta delta G (ddG), SPRINT score, ZDOCK skoru) ağırlıklandırılmasında HGPEC gen-hastalık önceliklendirme aracı kullanılmıştır. Hastalıklara özel mutasyon tahmin aracında model hastalık grubu olarak sistemic Otoinflamatuar hastalıklar seçilmiştir. Infevers veri tabanından elde edilen bening ve pathojenik mutasyonların elde edilen ZDOCK, SPRINT, ve ddG değerleri ikili sınıflandırma makina öğrenmesi methodları kullanılarak modeller oluşturulmuştur. Bu modellerden en yüksek skora sahip model Random Forest modeli olmuştur. ROCAUC değeri (kfold=20) %93 dir. Tahminlerde ZDOCK, ddG, SPRINT verilerinin kullanılmasının anlamlı olup olmadığını incelemek için diğer yapay zeka yöntemleriyle modeller oluşturulmuştur. Bu modeller Doğrusal Destek Vektör Makinesi, Stokastik Gradyan İniş, Lojistik Regresyon ve Sinir Ağıdır. Bu yöntemlerin ROCAUC değerleri sırasıyla %75, %73, %74 ve %85 şeklindedir. Bu durum ZDOCK, ddG, SPRINT değerlerinin patojenik ve iyi huylu mutasyonları ayırt etmede kullanılabileceğini göstermektedir. Çünkü diğer yöntemlerdeki ROCAUC değerleri küçük olmasına rağmen yine de benzer ve ayırt edici sonuçlar vermiştir. Infevers veri tabanında bulunan mutasyonların yapısal pdb dosyalarında pyrosetta aracı ile üretildikten sonra mutasyonların yapanıl olarak yaptıkları etkileşimlerin mutasyonlu residuelere uzaklıkları 10 Angstrom uzunluğunda kesim noktası ile incelenmiştir. Bu kritere uygun 284 mutasyon bulunmuştur. Bu mutasyonların 41 tanesi bening mutasyonlardır. Geri kalan mutasyonlar ise patojenik mutasyonlardır. Benign mutasyonların %10 ve patojenik mutasyonların %20'si test verisi olarak ayrılmıştır ve geri kalan mutasyonlarla seçilen yöntemlerle test edilmiştir. Random Forest modelinde yine en yüksek sonuçlar elde edilmiştir. Bu modelin ROCAUC değeri %94 dür. Son olarak Infevers veri tabanındaki missense VUS ların ZDOCK, ddG, ve SPRINT değerleri hesaplandıktan sonra oluşturulan RandomForest modeline göre tahminleri websitesi üzerinden yayınlanabilir. Bunun yanında monogenic autoinflammatory hastalıklardaki genlerdeki mutasyonların incelenmesi için ZDOCK, SPRINT ve ddG değerlerini hesaplayan bir sunucu ile web sitesi üzerinden mutasyon tahminleri yapılmasına olanak sağlanabilir. İleriki çalışmalarda hastalıkların gen ve semptome benzerliklerine göre benzerlik ağı oluşturulabilir. Bu sayede mutasyon tahmini yapılacağı zaman hastanın semptomlarına göre mutasyon değerlerinin yeniden ağırlıklandırılmasına olanak sağlayabilecektir. Bu sayede dolaylı olarak mutasyonların semptom ilişkisi tahmin edilebilecektir. Aynı zamanda farklı hastalık gruplarının ilişkiside anlaşılabilecektir. Oluşturduğumuz tahmin aracı tüm exonic varyasyonları tahmin etme kapasitesine ulaşacaktır. Ayrıca geliştirilecek olan tahmin aracının veriseti artacağı için oluşturulacak modellerin doğruluk değerleri artacaktır. Protein 3 boyutlu yapısının oluşturulmasında kullanılacak yöntemlerin doğruluk değerleri zaman geçtikçe artmaktadır. Ve zaman geçtikçe X-ray crystallography, NMR, ve cyro elektron mikroskobu yontemleri ile elde edilen proteinlerin 3 boyutlu yapılarıda kullanılabilecektir. Bu sayede daha gerçekçi sonuçlar elde edilebilecektir. Aynı zamanda sadece missense mutasyonların dışında insersiyonlar, delesyonlar, ve çerçeve kayması mutasyonlarınında proteinin 3 boyutlu yapısına etkisi incelenebilecektir. Proteinlerin birbirleri ile etkileşimlerinin hücre mekanizmalarında en önemli etken olmasının yanında proteinin işleyişine etki eden kimyasallar ve post-transtripsiyonel modifikasyonlarda bulunmaktadır. Bu etkileşimlerin de proteinin 3 boyutlu yapısındaki etkileri ve protein kimyasal etkileşiminin ortalama değişimide göz önüne alınabilir.

Özet (Çeviri)

Rare diseases have different frequencies among populations. For example, while cystic fibrosis is less common in the Far East population, it is higher in the European population. In general, diseases seen in 1 in 2,000 people are called rare diseases. Worldwide 300 million people suffer from one of the 7000 known rare diseases. The majority of these 7000 diseases are genetic-based and occur at an early age. The prognosis and genetic predisposition of many diseases in this group have not been fully elucidated. For example, Familial Mediterranean Fever is associated with the MEFV gene. However, 20% of patients do not have a known FMF-associated MEFV mutation. Diagnosing variants of unknown significance is of great importance. For this, we predict that the mutation prediction tool we developed specific to SAID diseases will be useful. Variant of unknown significance (VUS) are mutations that are not fully classified as benign or pathogenic in complex diseases or genetic diseases, but are known to be associated with the disease. Expression analyzes (RNA-seq, RT-PCR), observation of changes in intracellular locations (in situ Proximity Ligation Assay (PLA)) two-hybrid, immunoprecipitation base methods (Tandem affinity purification)) are required. In addition, prediction tools developed to predict whether mutations are benign or pathogenic computationally are used. When we look at the Infevers database, which contains mutations in monogenic autoinflammatory diseases, there are 2502 mutations in total. The number of those with missense benign mutations is 137. The number of pathogenic missense mutations is 589. However, the total number of VUSs is 471. 420 of the 471 VUS mutations are missense VUS. As can be seen from this result, it is more difficult to determine the effect of missense mutations on diseases compared to indels, frameshift or nonsense mutations. In the mutation prediction tool we developed to determine missense mutations in monogenic diseases, we predict the pathogenic or benign status of missense mutations. The effects of changes in the reference sequence of the human genome on the phenotype occur in various ways. For example, the change in CpG islands, which are methylation sites on DNA, affects the amount of products of the gene where that locus acts as the promoter. Another effect of mutations is that they cause changes in the exonic region. These variations in the exonic region cause structural changes in proteins, which are functional and structural units of organisms. These variations can change the protein-protein interaction properties necessary for proteins to perform their functions. In this thesis, it was aimed to develop a variant pathogenicity test, taking into account the changes in interaction properties. The wild interactions of the proteins were taken from the intact and STRING databases. 3D models of proteins were obtained with trRosetta ab-initio, template free modeling tool. Another feature that distinguishes this study from other mutation prediction tools is that the HGPEC gene-disease prioritization tool was used in weighting structural and sequence based features (delta delta G (ddG), SPRINT score, ZDOCK score). Systemic Autoinflammatory Disease was chosen as the model disease group in the disease-specific mutation prediction tool. ZDOCK, SPRINT, and ddG results obtained from benign and pathogenic mutations obtained from Infevers database were created using binary classification machine learning methods. Among these models, the model with the highest score was the Random Forest model. The ROCAUC value (kfold = 20) is 93 %. In order to examine whether it is meaningful to use ZDOCK, ddG, SPRINT data for predictions, models were created with other artificial intellegance methods. These models are Linear Support Vector Machine, Stochastic Gradient Descent, Logistic Regression, and Neural Network. Respectively, the ROCAUC values of these methods are 75%, 73%, 74%, and 85%. This shows that ZDOCK, ddG, SPRINT values can be used in distinguishing pathogenic and benign mutations. Because the ROCAUC values in the other methods, although small, still gave similar and distinctive results. In addition, the distribution of SPRINT values of benign mutations is more widespread than pathogenic. Although ZDOCK and ddG values are more similar to each other, pathogenic mutations in ddG values are more widely distributed. Finally, after calculating the ZDOCK, ddG, and SPRINT values of the missense VUS in the Infevers database, estimates can be published on the website according to the RandomForest model created. In addition, in order to examine mutations in genes in monogenic autoinflammatory diseases, a server that calculates ZDOCK, SPRINT and ddG values can be used to make mutation predictions on the website.

Benzer Tezler

  1. Fenilketonüri tanısı ile izlenen hastaların demografik, klinik, biyokimyasal ve moleküler genetik özelliklerinin incelenmesi

    Investigation of demographic, clinical, biochemical and molecular genetic features of patients followed with the diagnosis of phenylketonuria

    FATMA NUR KUZUCU

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Çocuk Sağlığı ve HastalıklarıSağlık Bilimleri Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. MUSTAFA KILIÇ

  2. Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi

    Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism

    CAN KOŞUKCU

    Doktora

    Türkçe

    Türkçe

    2024

    Endokrinoloji ve Metabolizma HastalıklarıHacettepe Üniversitesi

    Pediatrik Temel Bilimler Ana Bilim Dalı

    PROF. DR. RIZA KÖKSAL ÖZGÜL

  3. Multivariate analysis of genomic in-silico pathogenicity predictors

    Genomik in-siliko patojenite tahmin araçlarının çok değişkenli analizi

    EYLÜL AYDIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    BiyoistatistikAcıbadem Mehmet Ali Aydınlar Üniversitesi

    Genom Çalışmaları Ana Bilim Dalı

    PROF. ÖZDEN HATIRNAZ NG

    DR. ÖĞR. ÜYESİ ÖZKAN ÖZDEMİR

  4. Functional enrichment methodology for analyzing omic data to study aetiology of rare diseases

    Nadir hastalıkların etiyolojisini incelemek için omik verileri analiz etmede fonksiyonel zenginleştirme metodolojisi

    CEREN SAYGI

    Doktora

    İngilizce

    İngilizce

    2018

    BiyomühendislikBoğaziçi Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. NESRİN ÖZÖREN

    PROF. DR. OSMAN UĞUR SEZERMAN

  5. Machine learning based model for clinical characterization of germline variants from RNA-seq data

    RNA-seq datasından germ hattı varyantların klinik karakterizasyonu için makine öğrenmesi tabanlı model

    ÖZGENUR AKDAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyomühendislikGebze Teknik Üniversitesi

    Biyoinformatik Sistemler Biyolojisi Ana Bilim Dalı

    PROF. DR. FATİH ERDOĞAN SEVİLGEN