Geri Dön

A novel method for prediction of biological assemblies and protein-protein interfaces

Biyolojik yapı ve protein-protein arayüzlerinin kestiriminde yeni bir yaklaşım

  1. Tez No: 437408
  2. Yazar: SELÇUK KORKMAZ
  3. Danışmanlar: PROF. DR. OSMAN SARAÇBAŞI
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 114

Özet

Protein Veri Bankası (Protein Data Bank; PDB) üç boyutlu protein ve nükleik asit yapılarını içeren dünya çapıdaki tek arşivdir. Aralık 2015 itibariyle, PDB 115,000'den fazla yapı içermektedir ve her yıl yaklaşık 10,000 yeni yapı veri bankasına yüklenmektedir. Bir proteinin biyolojik olarak aktif formu genellikle X-ray kristalografisi yöntemi ile ortaya çıkarılmasıyla birlikte doğrudan bu yöntemle elde edilemez. Bu bilgiyi elde etmek için ek deneyler gerekebilir veya benzer protein yapıları ile karşılaştırılarak yapı hakkında bilgi edinilebilir veya PISA (Proteins, Interfaces, Structures and Assemblies) yazılımı kullanılarak yapı kestirimi yapılabilir. Bu alanda bir çok çalışma yapılmasına rağmen, eksik ve/veya kesin olmayan deneysel veri veya PDB sistemine veri yüklenirken yazarlar tarafından yapılan hatalar nedeniyle veri bankasında bulunan biyolojik yapıların yaklaşık %14'ünün hatalı olduğu tahmin edilmektedir. Bu yüzden, veri bankasındaki biyolojik yapıların doğruluğunu değerlendirmek için bir takım ek incelemelerin yapılması gerekmektedir. Bu çalışmada, iki ana amacımız bulunmaktadır: (i) yanlış biyolojik yapıların tespit edilmesi (ii) yanlış yapılar için en olası biyolojik yapıların bulunması. Bu amaçla, öncelikle, belirli bir dizi benzerlik eşiğine bağlı olarak PDB arşivinde bulunan benzer yapıları kümelemek için homolog proteinlerden yararlanıldı ve bir tutarlılık skoruna bağlı olarak dizi kümesi için temsili bir biyolojik yapı kestiriminde bulunuldu. İkinci olarak, birincil yayınlardan doğru biyolojik yapı açıklamalarını ve deneysel kanıtları tespit ederek yazarların biyolojik yapı açıklamalarını doğrulamak için bir metin madenciliği yaklaşımı kullanıldı. Ayrıca, PISA ve EPPIC (Evolutionary Protein Protein Interface Classifier) yazılımlarını kullanarak biyolojik yapı kestirimleri yapıldı. Daha sonra, bir oy biriliği sonucu elde etmek için dört farklı yöntemden elde edilen sonuçlar birleştirildi ve veri tabanındaki yanlış biyolojik yapılar için en olası yapı kestiriminde bulunuldu. Oy birliği yöntemi tek yöntemlerden daha iyi bir performans sergiledi ve kullanılan veri seti için %80 doğru, %11 yanlış ve %9 belirsiz kestirimlerde bulundu. Ayrıca, PDB veri tabanındaki hata oranının farklı çoğunluk oyu kurallarına bağlı olarak %4 ile %16 arasında olduğu tespit edildi. Son olarak, geliştirilen yöntemi bu alanda çalışan araştırmacılar için kullanılabilir hale getirmek için web-tabanlı bir uygulama geliştirildi. Bu uygulamaya

Özet (Çeviri)

The Protein Data Bank (PDB) is the single worldwide archive of the three-dimensional (3D) structures of proteins and nucleic acids. As of December 2015, the PDB contains more than 115,000 structures and grows by more than 10,000 structures annually. The biologically relevant form of a 3D structure determined by X-ray crystallography is not directly obtainable by this experimental technique. Instead, this information may come from additional experiments or is inferred by comparison with similar proteins and is provided by the structure depositor as metadata, or it is predicted using PISA (Proteins, Interfaces, Structures and Assemblies) software. In spite of the great efforts, because of the incomplete or unclear experimental data or due to errors during the data deposition process, it is estimated that almost 14% of the biological assemblies in the PDB are incorrect. Therefore, further investigations are needed to evaluate the correctness of these biological assemblies. In this study, we aimed two main objectives: (i) detection of the incorrect biological assemblies and (ii) assignment of the most likely biological assemblies for the incorrect annotations. Firstly, we made use of homologous protein chains to cluster similar PDB entries based on a certain sequence identity threshold and to predict a representative biological assembly for the cluster through a consistency score calculation. Secondly, we used a text mining approach to validate the author deposition by extracting oligomeric state and experimental evidence information from primary citations. Moreover, we used PISA and EPPIC (Evolutionary Protein Protein Interface Classifier) software to predict stoichiometry and symmetry of the biological assembly structures. Then, we aggregated predictions from four different methods to achieve a consensus result and to predict the most probable biological assemblies for the possibly incorrect structures. Our consensus approach outperformed single methods and achieved 80% correct, 11% wrong and 9% inconclusive predictions on a benchmark dataset. Furthermore, we estimated the error rate in the PDB between 4% and 16% based on different majority vote rules. Finally, we developed a web-based tool in order to make this approach usable for researchers in the field and annotators in the PDB. This

Benzer Tezler

  1. Constructing peptide (GEPI)-protein molecular hybrids by using genetic engineering methods for materials and medical applications.

    Malzeme ve medikal uygulamalar için gen mühendisliği yoluyla peptid (GEPI)-protein hibritlerin oluşması.

    DENİZ ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2011

    Biyomühendislikİstanbul Teknik Üniversitesi

    İleri Teknolojiler Ana Bilim Dalı

    PROF. DR. CANDAN TAMERLER

    PROF. DR. MEHMET SARIKAYA

  2. Computational prediction of disordered regions in proteins

    Proteindeki düzensiz bölgelerin hesapsal tahmini

    İREM ERSÖZ KAYA

    Doktora

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. DR. TURGAY İBRİKÇİ

  3. Genome-wide prediction of prokaryotic two-component system networks using a sequence-based meta-predictor

    Başlık çevirisi yok

    ALTAN KARA

    Doktora

    İngilizce

    İngilizce

    2016

    BiyolojiAberystwyth University / Prifysgol Aberystwyth

    Yurtdışı Enstitü

    DR. NARCIS FERNANDEZ-FUENTES

    DR. DAVID WHITWORTH

  4. Meyve dokularında niteliksel ölçüm yapabilen elle tutulabilir spektroskopik donanım tasarımı ve gerçeklemesi

    Design and implementation of a hand-held devi̇ce to spectroscopically assess fruit quality

    ALİ SARIKAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Biyoteknolojiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. FATMA İNCİ ÇİLESİZ

  5. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA