Geri Dön

Prediction of the effects of single amino acid variations on protein functionality with structural and annotation centric modeling

Tekil amino asit mutasyonlarının protein işlevleri üzerindeki etkisinin yapısal ve anotasyon odaklı yaklaşımla tahmini

  1. Tez No: 620847
  2. Yazar: FATMA CANKARA
  3. Danışmanlar: DOÇ. DR. NURCAN TUNÇBAĞ, DOÇ. DR. TUNCA DOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Genetik, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Biyoenformatik Bilim Dalı
  13. Sayfa Sayısı: 164

Özet

Genom üzerindeki tekli nükleotid değişiklikleri protein dizisi, yapısı ve kararlılığı üzerinde yarattığı etkiler aracılığıyla proteinlerin işlevlerinde önemli değişikliklere sebep olabilir. Bu sinonim olmayan tek nükleotid polimorfizmleri, insanda pek çok hastalığın oluşumundan sorumludur. Uzmanların bu mutasyonları anote etme (etiketleme) hızı, günümüzde yeni dizi verisi üretme hızının çok gerisinde kalmaktadır. Bu süreci hızlandırmak için hesaplamalı yöntemler geliştirilmekte ve otomatize şekilde bilinmeyen veri üzerinde uygulanmaktadır. Bu çalışmada, sinonim olmayan tekli nükleotid değişikliklerinin amino asit seviyesinde gösterdikleri etkiler hakkındaki bilgilerin çeşitli veri tabanlarından toplanması ve organize edilmesi, bunun yanında bu bilginin etkisi bilinmeyen tekli nükleotid değişikliklerinin proteinin işlevine zarar verme potansiyellerinin gözetimli makine öğrenmesi yaklaşımı kullanarak tahmini için bir metodoloji sunulmuştur. Bu amaçla, UniProt, ClinVar ve PMD gibi çeşitli veri tabanlarından anote edilmiş 157,138 mutasyon (89,363 zarar gösteren ve 67,775 zarar göstermeyen) toplanmıştır. Her mutasyon veri noktası için, ilgili genin ürünü olan proteinin 3 boyutlu yapı bilgisi ve bölgesel UniProt dizi anotasyonları kullanılarak bir öznitelik vektörü oluşturulmuştur. Ayrıca, her mutasyon öznitelik vektörüne o mutasyonun, üzerinde bulunduğu genin ürünü olan proteinin bölgesel dizi anotasyonlarına olan uzaysal uzaklığı eklenmiştir. Bu öznitelik vektörleri ve bunların etiketleri kullanılarak, amacı mutasyonları protein işlevine zarar verenler ve zarar vermeyenler şeklinde sınıflandırmak olan ve rastgele orman algoritmasını kullanan bir makine öğrenmesi modeli geliştirilmiştir. Bu model çeşitli öznitelik alt gruplarının tahmin başarısına etkisini ölçmek üzere detaylı bir şekilde değerlendirilmiştir ve nihai model bağımsız bir test seti üzerinde tatmin edici bir başarıya ulaşmıştır (AUROC:0.86, kesinlik: 0.77, duyarlılık 0:90, doğruluk: 0.78, F1-puanı: 0.83 ve MCC: 0.54). Ayrıca, modelin performansının, standart bir veri seti üzerinden mutasyon etki tahmini yapan yaygın yöntemlerin sonuçlarıyla kıyaslaması gerçekleştirilmiştir. Gelecekte yapılacak çalışmalar olarak, bir vaka çalışması yürütülerek, yeni mutasyon etki tahmin sonuçlarının literatür bazlı bilgi ile doğrulanması planlanmaktadır. Ayrıca, geliştirilen yöntemin kullanıma hazır bir komut satırı aracı haline getirilerek açık kaynaklı bir veri deposu vasıtasıyla araştırma topluluğuyla paylaşılması amaçlanmaktadır. Geliştirilen yöntemin literatürde sıkça kullanılmakta olan mutasyon etki tahmini araçlarıyla beraber olarak kullanılmasının tamamlayıcı bir etki yaratacağı ve bu yöntemlerin tahmin performanslarını arttıracağı düşünülmektedir.

Özet (Çeviri)

Whole-genome and exome sequencing studies have indicated that genomic variations may cause deleterious effects on protein functionality via various mechanisms. Single nucleotide variations that alter the protein sequence, and thus, the structure and the function, namely non-synonymous SNPs (nsSNP), are associated with many genetic diseases in human. The current rate of manually annotating the reported nsSNPs cannot catch up with the rate of producing new sequencing data. To aid this process, automated computational approaches are being developed and applied on the unknown data. In this study, we propose a new methodology to collect and organize the information related to the effects of nsSNPs at the amino acid sequence level from various biological databases and to utilize this information in a supervised machine-learning based system to predict the function disrupting capacities of mutations with unknown consequences. For this, 157,138 annotated mutation data points (89,363 deleterious and 67,775 neutral) were collected from multiple resources such as UniProt, ClinVar and Protein Mutant Database. For each mutation data point, a feature vector was constructed using protein 3-D structure information and site-specific feature annotations in the UniProt database. The information about the spatial proximity of the reported mutations to these protein features were also incorporated to the feature vector. The system was trained with these feature vectors and their respective labels in a supervised fashion using random forest, where the ultimate aim was to construct a model that classifies unknown mutations either as deleterious or neutral. The prediction model was evaluated in detail to observe the contribution of different feature types to the prediction success. The finalized model displayed a satisfactory performance (AUROC:0.86, precision: 0.77, recall 0:90, accuracy: 0.78, F1-score: 0.83 and MCC: 0.54) on the independent test dataset. Besides, the performance of the proposed model was compared to the widely used variant effect predictors in the literature, over standard benchmark datasets. As future work, we plan to conduct a case study over interesting prediction examples and to validate our results via literature-based information. Finally, we plan to construct a ready-to-use command line based variant effect prediction tool and to share it with the research community over an open access data repository. We believe that this system will be complementary to the well-known methods in the literature and its incorporation to ensemble-based tools will increase the performance of the state-of-the-art in variant effect prediction.

Benzer Tezler

  1. Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi

    Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism

    CAN KOŞUKCU

    Doktora

    Türkçe

    Türkçe

    2024

    Endokrinoloji ve Metabolizma HastalıklarıHacettepe Üniversitesi

    Pediatrik Temel Bilimler Ana Bilim Dalı

    PROF. DR. RIZA KÖKSAL ÖZGÜL

  2. Structural bioinformatics analysis of the candidate tumor suppressor protein CTCF

    Aday tümör baskılayıcı protein CTCF'in yapısal biyoenformatik analizi

    SİNEM DARWISH

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Biyoistatistikİstanbul Medipol Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KIVANÇ KÖK

  3. Computational investigation on structural and functional impact of oncogenes and tumor suppressor genes on cancer

    Onkojenlerin ve tümör baskılayıcı genlerin kanserine yapısal ve fonksiyonel etkisi üzerinde hesapsal incelemesi

    ABDOULIE K. CEESAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyomühendislikMarmara Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    DOÇ. DR. PEMRA ÖZBEK SARICA

  4. Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli

    A novel variant effect prediction model based on protein representation with deep learning architecture

    GÜLBAHAR MERVE ŞILBIR

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoistatistikKaradeniz Teknik Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. BURÇİN KURT

  5. Protein fold classification and motif retrieval methods by using the primary and secondary structures

    Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı

    ÖZLEM POLAT

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ZÜMRAY DOKUR ÖLMEZ