Geri Dön

Automatic identification of evolutionary and sequence relationships in large scale protein data using computational and graph-theoretical analyses

Büyük çaplı protein verisinde evrimsel ve dizinsel ilişkilerin işlemsel ve çizge teorisi analizleri ile otomatik olarak belirlenmesi

  1. Tez No: 325728
  2. Yazar: TUNCA DOĞAN
  3. Danışmanlar: DOÇ. DR. BİLGE KARAÇALI, PROF. DR. HÜSEYİN BASKIN
  4. Tez Türü: Doktora
  5. Konular: Biyomühendislik, Bioengineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyomühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 128

Özet

Bu çalışmada, yüksek oranda çeşitlilik gösteren geniş veri setlerinde bulunan biyomoleküler dizilerin evrimsel/fonksiyonel ilişkilerini otomatik şekilde tanımlayan yöntemler geliştirilmiştir. Yöntemlerin oluşturulması ve optimizasyonu sırasında farklı yaklaşımlar değerlendirilmiştir. İlk yaklaşım, doğrusal olmayan gömme tekniği kullanılarak, gen ve protein dizilerinin çok boyutlu vektör uzaylarında ifade edilmeleri olmuştur. Bu yaklaşım, sonuç olarak ortaya çıkan ifadeleri kümelemek ve/veya sınıflamak amacı ile istatistiki öğrenme algoritmalarının uygulanabilmesine olanak sağlamıştır. İkinci yaklaşım, uzak homoloji ve/veya yanlış hizalama sonucunda ortaya çıkan güvenilmez bağlantıları elemek amacı ile diziler arası ikili uzaklıkları düzeltme işlemine tabi tutmak olmuştur. Bu işlem, ikili bağlantı haritasının farklı 2 değişken üzerinden eşiklenmesi ile gerçekleştirilmiştir. Bunlar, tahmin edilen evrimsel mesafeler ve ikili hizalamalarda yer alan boşluksuz pozisyonların sayısı olmuştur. Sonuç olarak ortaya çıkan bağlantı haritası, kopuk ve benzer proteinler içeren kümelerden oluşmaktadır. Üçüncü ve son yaklaşım, paylaşılan dizi parçalarının korunmuş fonksiyonel veya yapısal özellikleri ifade etmelerinden dolayı, amino asit dizilerinin bu paylaşılan/korunmuş kısımlar üzerinden birbirleri ile ilişkilendirilmeleri olmuştur. Bu kısımların çeşitlilik içeren geniş amino asit dizi koleksiyonlarında tanımlanabilmesi amacı ile dizi hizalama, amino asit korunum puanlama ve çizge teorisi yaklaşımları kullanılarak otomatik çalışan bir yöntem geliştirilmiştir. Yöntem, çıktı olarak işleme verilen diziler ile tanımlanan korunmuş bölgelerin ilişkilendirildiği bir tablo vermektedir. Bu tablo kullanılarak hem bilinen protein ailelerinin yeni üyeleri, hem de tamamen yeni aileler ortaya çıkarılabilir. Geliştirilen yöntemler, genel bir fonksiyonel ilişki haritası elde etmek amacı ile 17793 insan protein dizisinden oluşan bir veri setine uygulanmıştır. Bu harita üzerinde, fonksiyonel açıklamalar içeren proteinler ile ilişkileri dikkate alınarak, insan proteinlerinin fonksiyonel ve evrimsel özellikleri elde edilebilir. Sonuçlar, korunmuş bölgelerin tanımlanmış yapısal fonksiyonel dizi kısımlarına denk düştüğünü göstermiştir. Buna bağlı olarak, yöntem aynı zamanda protein dizileri üzerinde yeni yapısal fonksiyonel dizi kısımlarının tanımlanmasında kullanılabilir.

Özet (Çeviri)

In this study, computational methods are developed for the automatic identification of functional/evolutionary relationships between biomolecular sequences in large and diverse datasets. Different approaches were considered during the development and optimization of the methods. The first approach focused on the expression of gene and protein sequences in high dimensional vector spaces via non-linear embedding. This allowed statistical learning algorithms to be applied on the resulting embeddings in order to cluster and/or classify the sequences. The second approach revised the pairwise similarities between sequences following multiple sequence alignment in order to eliminate the unreliable connections due to remote homology and/or poor alignment. This is achieved by thresholding the pairwise connectivity map over 2 parameters: the inferred evolutionary distances and the number of gapless positions in each pairwise alignment. The resulting connectivity map was disjoint and consisted of clusters of similar proteins. The third and the final approach sought to associate the amino acid sequences with each other over highly conserved/shared sequence segments, as shared sequence segments imply conserved functional or structural attributes. An automated method was developed to identify these segments in large and diverse collections of amino acid sequences, using a combination of sequence alignment, residue conservation scoring and graph-theoretical approaches. The method produces a table of associations between the input sequences and the identified conserved regions that can reveal both new members to the known protein families and entirely new lines. The methods were applied to a dataset composed of 17793 human proteins sequences in order to obtain a global functional relation map. On this map, functional and evolutionary properties of human proteins could be found based on their relationships to the ones bearing functional annotations. The results revealed that conserved regions corresponded strongly to annotated structural domains. This suggests the method can also be useful in identifying novel domains on protein sequences.

Benzer Tezler

  1. İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması

    Başlık çevirisi yok

    TARIK ÇAKAR

    Doktora

    Türkçe

    Türkçe

    1997

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. AYHAN TORAMAN

  2. Yeni nesil telsiz haberleşme sistemleri için otomatik modülasyon tanıma

    Automatic modulation identification for new generation wireless communication systems

    YEŞİM HEKİM TANÇ

    Doktora

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN AKAN

  3. Robot kollarının adaptif kontrolü

    Adaptive control of robot arms

    K.FATİH DİLAVER

  4. Depo yönetim sistemlerinde kullanılan otomatik tanıma ve veri toplama teknolojileri ile RFID etiketleme

    Automatic identification and data collection technologies and radio frequency identification label systems in warehouse management system

    ERHAN MALKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. MURAT BASKAK

  5. Genome analysis of the medicinal plant teucrium marum (Lamiaceae)

    Başlık çevirisi yok

    SEFA AYTEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyolojiThe University of Georgia

    DR. C. ROBİN BUELL