Geri Dön

Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek

  1. Tez No: 855609
  2. Yazar: NECLA NİSA SOYLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ EMRE SEFER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Özyeğin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Bilim Dalı
  13. Sayfa Sayısı: 89

Özet

Dil modelleri üzerine yapılan son çalışmalar, çeşitli dil problemlerinde son derece iyi performans gösterdi. Örneğin, Transformatörler'de Çift Yönlü Kodlayıcı Gösterimleri (BERT), kelimelerin bağlamını ve anlamını çıkarma konusuna odaklanmıştır. ProtBERT gibi proteine özgü versiyonlar da, çeşitli biyoinformatik çalışmalarında çok iyi sonuçlar elde etmiştir. Bu çalışmaların yanısıra, transkripsiyon sonrası 2'-O-metilasyon (Nm) RNA modifikasyonu ve bir dizi farklı protein translasyon sonrası modifikasyonu, sadece hücresel görevlerde öne çıkmakla kalmayıp, canlılarda meydana gelen pekçok hastalıkla ilişkilendirilmiştir. Mevcut yüksek verimli deneysel tekniklerin bu değişiklikleri tespit etmesi hem uzun zaman almakta hem de çok fazla maaliyete gerektirmektedir. Bu alanlarda yapılacak ilgili biyolojik süreçleri daha hızlı hale getirmek ve ilgili konularda daha iyi sonuçlara ulaşmak için iki etkili model tasarladık; ilk olarak, RNA dizilerinden 2'-O-metilasyon RNA modifikasyon bölgelerini çıkarmak için kullanılacak olan BERT2OME ve ikinci olarak da protein dizilerinden protein translasyon sonrası modifikasyon (PTM) bölgelerini daha verimli bir şekilde tahmin etmek için DEEPPTM'dir. BERT2OME, modifikasyon bölgeleri ile RNA dizisi içeriği arasındaki ilişkiyi ortaya çıkarmak için BERT tabanlı modeli evrişimli sinir ağlarıyla (CNN) birleştirir. Şu ana kadar önerilen yöntemlerden farklı olarak BERT2OME, verilen her RNA dizisini bir metin olarak kabul eder ve önceden eğitilmiş derin öğrenme tabanlı dil modeli BERT'i entegre ederek modifikasyon tahmin performansını iyileştirmeye odaklanır. Transformatör tabanlı bu yaklaşımımız, birden fazla türün modifikasyon bölgelerini de ortaya çıkarabilmektedir. 5 katmanlı çapraz doğrulamaya göre insan ve farelerde doğru tahminleme başarısı sırasıyla 99.15% ve 94.35% olarak ölçüldü. Benzer şekilde ROC AUC skorları da aynı tür için 0.99 ve 0.94 olarak bulundu. Ayrıntılı sonuçlar, BERT2OME'nin biyolojik deneylerde harcanan süreyi azalttığını ve birden fazla ölçüm üzerinden farklı veri kümeleri ve türler genelinde mevcut yaklaşımlardan daha iyi performans gösterdiğini kanıtlamaktadır. Ek olarak, 2 boyutlu CNN'ler gibi derin öğrenme yaklaşımları, BERT özelliklerinin öğrenilmesinde daha geleneksel makine öğrenme yöntemlerine göre daha umut vericidir. Bir diğer modelimiz DEEPPTM, mevcut yöntemlerden farklı olarak, ProtBERT tabanlı protein yerleştirmelerini dikkat tabanlı görüntü transformatörleri (ViT) ile entegre ederek modifikasyon tahmin performansını arttırıp, farklı modifikasyon türleri ile protein dizisi içeriği arasındaki ilişkileri ortaya çıkarmıştır. Süksinilasyon modifikasyonlarını tahmin etmek için insan ve fare ROC AUC'leri, 10 katmanlı çapraz doğrulama uygulandığında sırasıyla 0.988 ve 0.965 sonuçlarını vermiştir. Benzer şekilde, ubikuitinasyon, krotonilasyon ve glikasyon bölgelerinin çıkarılmasında sırasıyla 0.982, 0.955 ve 0.953 ROC AUC skorları elde edilmiştir. DEEPPTM modelinin geliştirilmesinde, görüntü transformatörleri gibi dikkat odaklı derin öğrenme yöntemleri, ProtBERT özelliklerini öğrenme konusunda daha etkili olmuş ve daha geleneksel derin öğrenme ile makine öğrenme tekniklerine göre üstün bir performans sergilemiştir. Ek olarak proteine özgü ProtBERT modeli, PTM tahminlemesinde BERT modelinden daha etkili olmuştur.

Özet (Çeviri)

Recent work on language models has resulted in state-of-the-art performance on various language tasks. Among these, Bidirectional Encoder Representations from Transformers (BERT) has focused on contextualizing word embeddings to extract the context and semantics of the words. Besides, their protein-specific versions such as ProtBERT generated dynamic protein sequence embeddings which resulted in better performance for several bioinformatics tasks. On the other hand, Post-transcriptional 2'-O-methylation (Nm) RNA modification and a number of different protein post-translational modifications are prominent in cellular tasks and related to a number of diseases. The existing high-throughput experimental techniques take longer time to detect these modifications, and costly in exploring these functional processes. Here, to deeply understand the associated biological processes faster, we come up with two efficient methods: the first one is BERT2OME to infer 2'-O-methylation RNA modification sites from RNA sequences and the second one is DEEPPTM to predict protein post-translational modification (PTM) sites from protein sequences more efficiently. BERT2OME combines BERT-based model with convolutional neural networks (CNN) to infer the relationship between the modification sites and RNA sequence content. Unlike the methods proposed so far, BERT2OME assumes each given RNA sequence as a text and focuses on improving the modification prediction performance by integrating the pre-trained deep learning-based language model BERT. Additionally, our transformer-based approach could infer modification sites across multiple species. According to 5-fold cross-validation, human and mouse accuracies were 99.15% and 94.35% respectively. Similarly, ROC AUC scores were 0.99 and 0.94 for the same species. Detailed results show that BERT2OME reduces the time consumed in biological experiments and outperforms the existing approaches across different datasets and species over multiple metrics. Additionally, deep learning approaches such as 2D CNNs are more promising in learning BERT attributes than more conventional machine learning methods. Different than the current methods, DEEPPTM enhances the modification prediction performance by integrating specialized ProtBERT-based protein embeddings with attention-based vision transformers (ViT), and reveals the associations between different modification types and protein sequence content. Additionally, it can infer several different modifications over different species. Human and mouse ROC AUCs for predicting Succinylation modifications were 0.988 and 0.965 respectively, once 10-fold cross-validation is applied. Similarly, we have obtained 0.982, 0.955, and 0.953 ROC AUC scores on inferring ubiquitination, crotonylation, and glycation sites respectively. According to detailed computational experiments, DEEPPTM lessens the time spent in laboratory experiments while outperforming the competing methods as well as baselines on inferring all 4 modification sites. In our case, attention-based deep learning methods such as vision transformers look more favorable to learn from ProtBERT features than more traditional deep learning and machine learning techniques. Additionally, the protein-specific ProtBERT model is more effective than the original BERT embeddings for PTM prediction tasks.

Benzer Tezler

  1. Dağıtık DVM kullanılarak miRNA hedef gen tahmini yapılması

    miRNA target gene prediction using distributed SVM

    NİYAZİ ELVAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. A. GÖKHAN YAVUZ

  2. Alt sekans profil haritaları kullanılarak protein katlanması tanıma

    Protein fold recognition using subsequence profile maps

    RUŞEN HALEPMOLLASI

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ÖMER SİNAN SARAÇ

  3. Discovering regulatory non-coding RNA interactions

    Düzenleyici kodlanmayan RNA etkileşimlerinin keşfi

    GÜLDEN OLGUN

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDULLAH ERCÜMENT ÇİÇEK

    YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN

  4. Uzun kodlamayan RNA ve mikro RNA'ların hepatoselüler karsinomunun erken tanısında önemi

    The importance of long noncoding RNA and micrornas in the early diagnosis of hepatocellular carcinoma

    DUYGU BİRCAN KADIOĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    GenetikMarmara Üniversitesi

    Tıbbi Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. FATİH EREN

  5. Development of visual analysis interfaces for large biological data and characterization of immunomodulatory noncoding RNA networks cancer

    Büyük biyolojik veriler için görsel analiz arayüzlerinin geliştirilmesi ve kanserde immünomodülatör kodlamayan RNA ağlarının karakterizasyonu

    MUHAMMET EMRE KUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Biyolojiİzmir Yüksek Teknoloji Enstitüsü

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN ATAKAN EKİZ