Geri Dön

Investigating the potential of incorporating protein language models (pLMs) into ML/DL approaches for enhanced prediction of allosteric sites in proteins

Proteinlerdeki allosterik bölgelerin gelişmiş tahmini için protein dil modellerini (pLM'ler) ML/DL yaklaşımlarına dahil etme potansiyelinin araştırılması

  1. Tez No: 836743
  2. Yazar: MOAAZ UR REHMAN AZHAR KHOKHAR
  3. Danışmanlar: PROF. DR. ATTİLA GÜRSOY, PROF. DR. ZEHRA ÖZLEM KESKİN ÖZKAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Allostery, the process by which binding at one site perturbs a distant site, is being rendered as a key focus in the field of drug development with its substantial impact on protein function. Allosteric drugs activate or inhibit proteins and offer advantages over non-allosteric drugs. However, the identification of allosteric sites is a challenging task due to unavailability of huge dataset, their distance, and lack of conservation across protein structures. A variety of computational techniques have been developed in the past to predict allosteric sites, such as Normal Mode Analysis (NMA), Molecular Dynamics (MD), and Machine Learning (ML), utilizing both static pocket characteristics and the dynamics of proteins; the performance of these methods needs further improvement. This research investigates the potential of incorporating Protein Language Models (pLMs) into ML and/or DL approaches to improve prediction of allosteric residues, based on the fact that the pLMs (e.g., ProtBERT from the family of ProtTrans pLMs: based on BERT architecture) effectively capture the spatial relationship among residues, eventually contributing to identification of allosteric sites/pockets. ProtBERT-BFD (ProtTrans) was fine-tuned on the Allosteric Dataset (ASD) of protein sequences, which predicts the allosteric residues with an F1 score of 61.54% on the test dataset. Several ML and DL approaches were utilized including XGBoost, SVM, AutoML, and GNNs. With the inclusion of fine-tuned pLM features, all of the aforementioned approaches improve the prediction performance of allosteric sites over previous studies by a considerable margin. XGBoost, being the highest performing model in this study, improves the results by combining the features extracted from finetuned ProtBERT with pocket features extracted by FPocket, resulting in an F1 score of 75.76% for allosteric pockets/sites. Case studies have been performed on proteins with known allosteric sites in addition to the case study to predict novel allosteric sites on new proteins.

Özet (Çeviri)

Allosteri, proteinin bir bölgesindeki değişikliğin, mesela başka bir moleküle bağlanmanın, proteinin uzak bir bölgesini etkilediği süreç olarak tanımlanabilir. Allosteri protein fonksiyonu üzerindeki önemli etkisi sebebiyle ilaç geliştirme alanında önemli bir odak noktasıdır. Allosterik ilaçlar proteinleri aktive veya inhibe edebilir, allosterik olmayan ilaçlara göre avantajlar sunar. Bununla birlikte, allosterik bölgelerin tanımlanması zorlu bir iştir. Geçmişte allosterik bölgeleri tahmin etmek için Normal Mod Analizi (NMA), Moleküler Dinamik (MD) ve Makine Öğrenimi (MÖ) gibi hem statik cep özelliklerini hem de proteinlerin dinamiklerini kullanan çeşitli hesaplama teknikleri geliştirilmi olmakla birlikte bu yöntemlerin performansının daha da geliştirilmesi gerekmektedir. Bu araştırmada, pDM'lerin (örneğin, ProtTrans pDM ailesinden BERT mimarisine dayalı ProtBERT'in) allosterik kalıntıların tahminini iyilrştirmek için Protein Dil Modellerini (pDM'ler), MÖ ve/veya DÖ yaklaşımlarıyla birlikte kullanılma potansiyelini araştırılıyor. Tezde, amino asitler arasındaki mekansal ilişkiyi etkili bir şekilde öğrenerek, sonuçta allosterik alanların/ceplerin tanımlanmasını hedeflenmektedir. ProtBERT-BFD (ProtTrans), test veri kümesinde %61,54'lük bir F1 puanıyla allosterik kalıntıları tahmin eden protein dizilerinin Allosterik Veri Kümesine (AVK) göre ince ayar yapılmıştır. XGBoost, SVM, AutoML ve GNN'ler dahil olmak üzere çeşitli MÖ ve DÖ yaklaşımlarından yararlanılmıştır, İnce ayarlı pDM özelliklerinin dahil edilmesiyle, yukarıda belirtilen yaklaşımların tümü, allosterik bölgelerin tahmin performansını önceki çalışmalara göre önemli bir farkla artırdığı bulunmuştur. Bu çalışmada en yüksek performansa sahip model olan XGBoost, ince ayarlı ProtBERT'ten çıkarılan özellikleri FPocket tarafından çıkarılan cep özellikleriyle birleştirerek sonuçları iyileştiriyor ve allosterik cepler/bölgeler için %75,76'lık bir F1 puanı erişmektedir. Bilinen allosterik bölgelere sahip proteinler üzerinde örnek çalışmaların yanı sıra, farklı proteinler üzerindeki yeni allosterik bölgeleri tahmin etmek için de çalışmalar yapılmıştır.

Benzer Tezler

  1. Nano-biotechnological application of inorganic binding proteins

    İnorganiklere özgün bağlanan peptidlerin nano-biyoteknolojik uygulamalari

    SİBEL ÇETİNEL

    Doktora

    İngilizce

    İngilizce

    2012

    Biyoteknolojiİstanbul Teknik Üniversitesi

    İleri Teknolojiler Ana Bilim Dalı

    PROF. DR. CANDAN TAMERLER

    PROF. DR. MEHMET SARIKAYA

  2. Investigating the microstructural and mechanical properties of the novel metallic materials used in interdisciplinary fields and constructing a relationship with the biocompatibility in biomedical applications

    Disiplinlerarası uygulamalarda kullanılan üstün özellikli metalik malzemelerin mikro yapı ve mekanik özelliklerinin incelenmesi ve biyomedikal uygulamalarda kullanılanlar ile biyouyumluluk ilişkisinin kurulması

    BENAY UZER

    Doktora

    İngilizce

    İngilizce

    2017

    Makine MühendisliğiKoç Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. DR. DEMİRCAN CANADİNÇ

  3. Endometrioma tanısı olan reprodüktif dönemdeki kadınlarda 'Cysteine-rich heparin-binding protein (CCN-1 protein)' seviyesinin ölçülmesi ve hastalığın şiddeti ile ilişkisinin değerlendirilmesi

    Measuring the level of 'Cysteine-rich heparin-binding protein (CCN-1 protein)' in women in the reproductive period with endometrioma diagnosed and evaluating their relationship with the severity of the disease

    ÖZGE SAYGILI İRHAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Kadın Hastalıkları ve DoğumSağlık Bilimleri Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    PROF. DR. YUSUF ÜSTÜN

  4. Construction and characterization of solid-supported lipid bilayers to investigate cell-surface interactions

    Hücre–yüzey etkileşimlerinin incelenmesi için yüzey-destekli lipid zarların oluşturulması ve karakterizasyonu

    ABDULHALİM KILIÇ

    Doktora

    İngilizce

    İngilizce

    2018

    Biyomühendislikİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. FATMA NEŞE KÖK

  5. Merkezi yolla uygulanan üridin ve üridin nükleotidlerinin nöroendokrin ve metabolik etkilerinin araştırılması

    Investigation of neuroendocrine and metabolic effects of centrally administered uridine and uridine nucleotides

    CANSU KOÇ

    Doktora

    Türkçe

    Türkçe

    2024

    Eczacılık ve FarmakolojiBursa Uludağ Üniversitesi

    Tıbbi Farmakoloji Ana Bilim Dalı

    PROF. DR. MEHMET CANSEV