Prediction of the effects of single amino acid variations on protein functionality with structural and annotation centric modeling
Tekil amino asit mutasyonlarının protein işlevleri üzerindeki etkisinin yapısal ve anotasyon odaklı yaklaşımla tahmini
- Tez No: 620847
- Danışmanlar: DOÇ. DR. NURCAN TUNÇBAĞ, DOÇ. DR. TUNCA DOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Genetik, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
- Bilim Dalı: Biyoenformatik Bilim Dalı
- Sayfa Sayısı: 164
Özet
Genom üzerindeki tekli nükleotid değişiklikleri protein dizisi, yapısı ve kararlılığı üzerinde yarattığı etkiler aracılığıyla proteinlerin işlevlerinde önemli değişikliklere sebep olabilir. Bu sinonim olmayan tek nükleotid polimorfizmleri, insanda pek çok hastalığın oluşumundan sorumludur. Uzmanların bu mutasyonları anote etme (etiketleme) hızı, günümüzde yeni dizi verisi üretme hızının çok gerisinde kalmaktadır. Bu süreci hızlandırmak için hesaplamalı yöntemler geliştirilmekte ve otomatize şekilde bilinmeyen veri üzerinde uygulanmaktadır. Bu çalışmada, sinonim olmayan tekli nükleotid değişikliklerinin amino asit seviyesinde gösterdikleri etkiler hakkındaki bilgilerin çeşitli veri tabanlarından toplanması ve organize edilmesi, bunun yanında bu bilginin etkisi bilinmeyen tekli nükleotid değişikliklerinin proteinin işlevine zarar verme potansiyellerinin gözetimli makine öğrenmesi yaklaşımı kullanarak tahmini için bir metodoloji sunulmuştur. Bu amaçla, UniProt, ClinVar ve PMD gibi çeşitli veri tabanlarından anote edilmiş 157,138 mutasyon (89,363 zarar gösteren ve 67,775 zarar göstermeyen) toplanmıştır. Her mutasyon veri noktası için, ilgili genin ürünü olan proteinin 3 boyutlu yapı bilgisi ve bölgesel UniProt dizi anotasyonları kullanılarak bir öznitelik vektörü oluşturulmuştur. Ayrıca, her mutasyon öznitelik vektörüne o mutasyonun, üzerinde bulunduğu genin ürünü olan proteinin bölgesel dizi anotasyonlarına olan uzaysal uzaklığı eklenmiştir. Bu öznitelik vektörleri ve bunların etiketleri kullanılarak, amacı mutasyonları protein işlevine zarar verenler ve zarar vermeyenler şeklinde sınıflandırmak olan ve rastgele orman algoritmasını kullanan bir makine öğrenmesi modeli geliştirilmiştir. Bu model çeşitli öznitelik alt gruplarının tahmin başarısına etkisini ölçmek üzere detaylı bir şekilde değerlendirilmiştir ve nihai model bağımsız bir test seti üzerinde tatmin edici bir başarıya ulaşmıştır (AUROC:0.86, kesinlik: 0.77, duyarlılık 0:90, doğruluk: 0.78, F1-puanı: 0.83 ve MCC: 0.54). Ayrıca, modelin performansının, standart bir veri seti üzerinden mutasyon etki tahmini yapan yaygın yöntemlerin sonuçlarıyla kıyaslaması gerçekleştirilmiştir. Gelecekte yapılacak çalışmalar olarak, bir vaka çalışması yürütülerek, yeni mutasyon etki tahmin sonuçlarının literatür bazlı bilgi ile doğrulanması planlanmaktadır. Ayrıca, geliştirilen yöntemin kullanıma hazır bir komut satırı aracı haline getirilerek açık kaynaklı bir veri deposu vasıtasıyla araştırma topluluğuyla paylaşılması amaçlanmaktadır. Geliştirilen yöntemin literatürde sıkça kullanılmakta olan mutasyon etki tahmini araçlarıyla beraber olarak kullanılmasının tamamlayıcı bir etki yaratacağı ve bu yöntemlerin tahmin performanslarını arttıracağı düşünülmektedir.
Özet (Çeviri)
Whole-genome and exome sequencing studies have indicated that genomic variations may cause deleterious effects on protein functionality via various mechanisms. Single nucleotide variations that alter the protein sequence, and thus, the structure and the function, namely non-synonymous SNPs (nsSNP), are associated with many genetic diseases in human. The current rate of manually annotating the reported nsSNPs cannot catch up with the rate of producing new sequencing data. To aid this process, automated computational approaches are being developed and applied on the unknown data. In this study, we propose a new methodology to collect and organize the information related to the effects of nsSNPs at the amino acid sequence level from various biological databases and to utilize this information in a supervised machine-learning based system to predict the function disrupting capacities of mutations with unknown consequences. For this, 157,138 annotated mutation data points (89,363 deleterious and 67,775 neutral) were collected from multiple resources such as UniProt, ClinVar and Protein Mutant Database. For each mutation data point, a feature vector was constructed using protein 3-D structure information and site-specific feature annotations in the UniProt database. The information about the spatial proximity of the reported mutations to these protein features were also incorporated to the feature vector. The system was trained with these feature vectors and their respective labels in a supervised fashion using random forest, where the ultimate aim was to construct a model that classifies unknown mutations either as deleterious or neutral. The prediction model was evaluated in detail to observe the contribution of different feature types to the prediction success. The finalized model displayed a satisfactory performance (AUROC:0.86, precision: 0.77, recall 0:90, accuracy: 0.78, F1-score: 0.83 and MCC: 0.54) on the independent test dataset. Besides, the performance of the proposed model was compared to the widely used variant effect predictors in the literature, over standard benchmark datasets. As future work, we plan to conduct a case study over interesting prediction examples and to validate our results via literature-based information. Finally, we plan to construct a ready-to-use command line based variant effect prediction tool and to share it with the research community over an open access data repository. We believe that this system will be complementary to the well-known methods in the literature and its incorporation to ensemble-based tools will increase the performance of the state-of-the-art in variant effect prediction.
Benzer Tezler
- Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi
Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism
CAN KOŞUKCU
Doktora
Türkçe
2024
Endokrinoloji ve Metabolizma HastalıklarıHacettepe ÜniversitesiPediatrik Temel Bilimler Ana Bilim Dalı
PROF. DR. RIZA KÖKSAL ÖZGÜL
- Structural bioinformatics analysis of the candidate tumor suppressor protein CTCF
Aday tümör baskılayıcı protein CTCF'in yapısal biyoenformatik analizi
SİNEM DARWISH
Yüksek Lisans
İngilizce
2021
Biyoistatistikİstanbul Medipol ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KIVANÇ KÖK
- Computational investigation on structural and functional impact of oncogenes and tumor suppressor genes on cancer
Onkojenlerin ve tümör baskılayıcı genlerin kanserine yapısal ve fonksiyonel etkisi üzerinde hesapsal incelemesi
ABDOULIE K. CEESAY
Yüksek Lisans
İngilizce
2022
BiyomühendislikMarmara ÜniversitesiBiyomühendislik Ana Bilim Dalı
DOÇ. DR. PEMRA ÖZBEK SARICA
- Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli
A novel variant effect prediction model based on protein representation with deep learning architecture
GÜLBAHAR MERVE ŞILBIR
Doktora
Türkçe
2024
BiyoistatistikKaradeniz Teknik ÜniversitesiBiyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
DOÇ. DR. BURÇİN KURT
- Protein fold classification and motif retrieval methods by using the primary and secondary structures
Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı
ÖZLEM POLAT
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ZÜMRAY DOKUR ÖLMEZ