A novel method for prediction of biological assemblies and protein-protein interfaces
Biyolojik yapı ve protein-protein arayüzlerinin kestiriminde yeni bir yaklaşım
- Tez No: 437408
- Danışmanlar: PROF. DR. OSMAN SARAÇBAŞI
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 114
Özet
Protein Veri Bankası (Protein Data Bank; PDB) üç boyutlu protein ve nükleik asit yapılarını içeren dünya çapıdaki tek arşivdir. Aralık 2015 itibariyle, PDB 115,000'den fazla yapı içermektedir ve her yıl yaklaşık 10,000 yeni yapı veri bankasına yüklenmektedir. Bir proteinin biyolojik olarak aktif formu genellikle X-ray kristalografisi yöntemi ile ortaya çıkarılmasıyla birlikte doğrudan bu yöntemle elde edilemez. Bu bilgiyi elde etmek için ek deneyler gerekebilir veya benzer protein yapıları ile karşılaştırılarak yapı hakkında bilgi edinilebilir veya PISA (Proteins, Interfaces, Structures and Assemblies) yazılımı kullanılarak yapı kestirimi yapılabilir. Bu alanda bir çok çalışma yapılmasına rağmen, eksik ve/veya kesin olmayan deneysel veri veya PDB sistemine veri yüklenirken yazarlar tarafından yapılan hatalar nedeniyle veri bankasında bulunan biyolojik yapıların yaklaşık %14'ünün hatalı olduğu tahmin edilmektedir. Bu yüzden, veri bankasındaki biyolojik yapıların doğruluğunu değerlendirmek için bir takım ek incelemelerin yapılması gerekmektedir. Bu çalışmada, iki ana amacımız bulunmaktadır: (i) yanlış biyolojik yapıların tespit edilmesi (ii) yanlış yapılar için en olası biyolojik yapıların bulunması. Bu amaçla, öncelikle, belirli bir dizi benzerlik eşiğine bağlı olarak PDB arşivinde bulunan benzer yapıları kümelemek için homolog proteinlerden yararlanıldı ve bir tutarlılık skoruna bağlı olarak dizi kümesi için temsili bir biyolojik yapı kestiriminde bulunuldu. İkinci olarak, birincil yayınlardan doğru biyolojik yapı açıklamalarını ve deneysel kanıtları tespit ederek yazarların biyolojik yapı açıklamalarını doğrulamak için bir metin madenciliği yaklaşımı kullanıldı. Ayrıca, PISA ve EPPIC (Evolutionary Protein Protein Interface Classifier) yazılımlarını kullanarak biyolojik yapı kestirimleri yapıldı. Daha sonra, bir oy biriliği sonucu elde etmek için dört farklı yöntemden elde edilen sonuçlar birleştirildi ve veri tabanındaki yanlış biyolojik yapılar için en olası yapı kestiriminde bulunuldu. Oy birliği yöntemi tek yöntemlerden daha iyi bir performans sergiledi ve kullanılan veri seti için %80 doğru, %11 yanlış ve %9 belirsiz kestirimlerde bulundu. Ayrıca, PDB veri tabanındaki hata oranının farklı çoğunluk oyu kurallarına bağlı olarak %4 ile %16 arasında olduğu tespit edildi. Son olarak, geliştirilen yöntemi bu alanda çalışan araştırmacılar için kullanılabilir hale getirmek için web-tabanlı bir uygulama geliştirildi. Bu uygulamaya
Özet (Çeviri)
The Protein Data Bank (PDB) is the single worldwide archive of the three-dimensional (3D) structures of proteins and nucleic acids. As of December 2015, the PDB contains more than 115,000 structures and grows by more than 10,000 structures annually. The biologically relevant form of a 3D structure determined by X-ray crystallography is not directly obtainable by this experimental technique. Instead, this information may come from additional experiments or is inferred by comparison with similar proteins and is provided by the structure depositor as metadata, or it is predicted using PISA (Proteins, Interfaces, Structures and Assemblies) software. In spite of the great efforts, because of the incomplete or unclear experimental data or due to errors during the data deposition process, it is estimated that almost 14% of the biological assemblies in the PDB are incorrect. Therefore, further investigations are needed to evaluate the correctness of these biological assemblies. In this study, we aimed two main objectives: (i) detection of the incorrect biological assemblies and (ii) assignment of the most likely biological assemblies for the incorrect annotations. Firstly, we made use of homologous protein chains to cluster similar PDB entries based on a certain sequence identity threshold and to predict a representative biological assembly for the cluster through a consistency score calculation. Secondly, we used a text mining approach to validate the author deposition by extracting oligomeric state and experimental evidence information from primary citations. Moreover, we used PISA and EPPIC (Evolutionary Protein Protein Interface Classifier) software to predict stoichiometry and symmetry of the biological assembly structures. Then, we aggregated predictions from four different methods to achieve a consensus result and to predict the most probable biological assemblies for the possibly incorrect structures. Our consensus approach outperformed single methods and achieved 80% correct, 11% wrong and 9% inconclusive predictions on a benchmark dataset. Furthermore, we estimated the error rate in the PDB between 4% and 16% based on different majority vote rules. Finally, we developed a web-based tool in order to make this approach usable for researchers in the field and annotators in the PDB. This
Benzer Tezler
- Constructing peptide (GEPI)-protein molecular hybrids by using genetic engineering methods for materials and medical applications.
Malzeme ve medikal uygulamalar için gen mühendisliği yoluyla peptid (GEPI)-protein hibritlerin oluşması.
DENİZ ŞAHİN
Doktora
İngilizce
2011
Biyomühendislikİstanbul Teknik Üniversitesiİleri Teknolojiler Ana Bilim Dalı
PROF. DR. CANDAN TAMERLER
PROF. DR. MEHMET SARIKAYA
- Computational prediction of disordered regions in proteins
Proteindeki düzensiz bölgelerin hesapsal tahmini
İREM ERSÖZ KAYA
Doktora
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
YRD. DOÇ. DR. TURGAY İBRİKÇİ
- Genome-wide prediction of prokaryotic two-component system networks using a sequence-based meta-predictor
Başlık çevirisi yok
ALTAN KARA
Doktora
İngilizce
2016
BiyolojiAberystwyth University / Prifysgol AberystwythYurtdışı Enstitü
DR. NARCIS FERNANDEZ-FUENTES
DR. DAVID WHITWORTH
- Meyve dokularında niteliksel ölçüm yapabilen elle tutulabilir spektroskopik donanım tasarımı ve gerçeklemesi
Design and implementation of a hand-held devi̇ce to spectroscopically assess fruit quality
ALİ SARIKAŞ
Yüksek Lisans
Türkçe
2014
Biyoteknolojiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. FATMA İNCİ ÇİLESİZ
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA