Geri Dön

Predicting intracellular functions of proteins from amino acid sequences using language processing methods

Proteinlerin amino asit dizilimlerinin doğal dil işleme metotları ile işlenerek hücre içi fonksiyonlarının tahminlenmesi

  1. Tez No: 731267
  2. Yazar: BEDİRHAN ÇALDIR
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoloji, Genetik, Computer Engineering and Computer Science and Control, Biology, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Günümüzde hızla yükselen hesaplama gücü ve gelişiminin doruklarında olan sekanslama teknolojileri hesaplamalı biyoloji alanındaki en önemli sorunlardan olan proteinlerin hücre içi fonksiyonlarının tahminlenebilmesi için yüksek işlem hacmi ile ileri seviye algoritmaların kullanılabilmesine olanak sağlamaktadır. Proteinlerin hücre içi işlevleri aslen üç boyutlu katlanmış yapıları sayesinde ortaya çıkmaktadır. Bu yapılar bir çizge olarak yorumlandığında çizge sinir ağları bu yapılara uygulandığında umut verici sonuçlar ortaya çıkmaktadır. Fakat çoğu protein için üç boyutlu katlanmış yapılar henüz yeterince bilinmediğinden bu yaklaşımlar kısıtlı kalmaktadır. Bununla birlikte proteinlerin amino asit dizilerinin doğal dillere benzer niteliklere sahip olması ve büyük miktarlarda dizi verisi bulunması bu dizilerin doğal dil işleme yöntemleri ile de işlenebileceğini ve işlevsel tahmin yapılabileceğini işaret etmektedir. Bu tezde, protein dizisi verisinin üç boyutlu katlanmış yapıyı da hücre içi fonksiyonu da tahmin etmek için yeterli bilgiyi içerdiği varsayımı ile iki farklı doğal dil işleme yöntemi probleme uyarlanmıştır: (i) çift yönlü dönüştürücü temelli BERT modeli (ii) çizge sinir ağları temelli heterojen çizge evrişimsel sinir ağı modeli. Sonuçlar, proteinleri çizge şeklinde yorumlamanın daha avantajlı olduğunu ortaya koymuştur. Çizge evrişimsel sinir ağları modeli BERT modelinden daha başarılı sonuçlar üretmiş ve üç boyutlu katlanmış yapıların bilgisini de kullanan son teknoloji çizge temelli modele yakın bir performans göstermiştir. Ayrıca, dizideki her amino asidin tek tek kullanılması yerine gruplandırılmış şekilde kullanılmasının daha başarılı sonuçlar ürettiği gözlemlenmiştir.

Özet (Çeviri)

Rapidly increasing computational power and sequencing technologies, which are at the peak of their development, enable the use of advanced algorithms with high processing volume to predict the intracellular functions of proteins, which is one of the most important problems in computational biology. The functionalities of proteins emerge primarily through their three-dimensional folded structures. When these structures are interpreted as graphs, the application of graph neural networks leads to promising results. However, these approaches are limited as the three-dimensional folded structures are not yet known for most proteins. The fact that the amino acid sequences of proteins have properties similar to natural languages and the large amounts of sequence data suggest that these sequences can be processed using natural language processing (NLP) methods. In this thesis, two different NLP methods are adapted to the problem of protein function prediction, assuming that the protein sequence data contain necessary and sufficient information to predict both three-dimensional folded structure and intracellular function: (i) Bidirectional Transoformer BERT model (ii) Heterogeneous Graph Convolutional Network (GCN) model. The results show that it is more advantageous to treat the proteins as graphs. The GCN model performs better than the BERT model and achieves performance close to the state-of-the-art model that uses three-dimensional folding information. In addition, we find that tokenizing the sequences instead of using the individual amino acids as tokens increases the performance.

Benzer Tezler

  1. Cloning and initial characterization of an estrogen responsive gene: YPEL2

    Östrojen yanıt geni YPEL2'nin klonlanması ve proteinin ilkin karakterizasyonu

    GİZEM GÜPÜR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    BiyolojiOrta Doğu Teknik Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. MESUT MUYAN

  2. Initial characterization of CXXC5 as a putative DNA binding protein

    Potensiyel olarak DNA'ya bağlanan CXXC5 proteininin ön karakterizasyonu

    PELİN YAŞAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    BiyolojiOrta Doğu Teknik Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. MESUT MUYAN

  3. Systematic evolution of novel 2′F-PY RNA aptamers targeting the membrane protein l-arginine/agmatine antiporter purified in mild detergent

    Hafif deterjanda saflaştirilmiş l-arjinin/agmatin antiport membran proteinini hedefleyen yeni 2′f-PY RNA aptamerlerinin sistematik evrimi

    NOORALDEEN FATHI NOORALDEEN AYOUB

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    BiyokimyaOrta Doğu Teknik Üniversitesi

    Biyokimya Ana Bilim Dalı

    DOÇ. DR. ÇAĞDAŞ DEVRİM SON

    DR. MÜSLÜM İLGÜ

  4. Pattern search in pathogenic bacterial proteins for localization and secretory systems

    Patojenik bakteriyel proteinlerde salgı sistemleri için örüntüler aranması

    ORHAN ÖZCAN

    Doktora

    İngilizce

    İngilizce

    2015

    BiyoteknolojiOrta Doğu Teknik Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    PROF. DR. GÜLAY ÖZCENGİZ

    DOÇ. DR. TOLGA CAN

  5. Molecular and functional investigation of disease-associated cytoskeletal proteins protrudin and MYO1H

    Hastalık ilişkili sitoskeletal proteinler protrudin ve MYO1H'nin moleküler ve fonksiyonel araştırılması

    ECE SELÇUK ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2024

    Biyolojiİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. ARZU KARABAY KORKMAZ