Prediction of pathogen-host interactions with protein sequence embeddings using deep learning
Patojen-konak etkileşimlerinin derin öğrenme yöntemleri kullanılarak tahmin edilmesi
- Tez No: 792560
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 85
Özet
Enfeksiyonlar, dünya çapında büyük bir sorundur. Konak ve patojenler arasındaki protein etkileşimlerini belirlemek, enfeksiyon mekanizmalarını anlamak, önleme ve tedavi stratejileri geliştirmek için kritiktir. Bu etkileşimleri belirlemek için kullanılan laboratuvar deneyleri pahalı ve zaman alıcıdır. Bu nedenle, bilgisayar tabanlı yaklaşımların geliştirilmesi zaman ve maddi masrafları azaltabilecek umut verici bir çözümdür. 3 boyutlu protein yapılarına dair veriler, protein fonksiyonları hakkında yararlı bilgiler içerirken, dizileme teknolojisindeki ilerlemelerle 1 boyutlu dizi verileri yaygın olarak mevcuttur ve daha az bilgisayar gücü kullanılarak işlenebilirler. Bu tezin ana amacı patojen-konak protein etkileşimlerini öngörmede sadece dizi tabanlı bir yaklaşım geliştirmektir. Protein dizilerinin cümle olarak görülebileceği, dolayısıyla parçalara ayrılabileceği hipotezine dayanarak, patojen-konak etkileşimlerini tahmin etmek için dizi tabanlı bir yaklaşım geliştirilmiştir. Byte Pair Encoding (BPE) tokenize etme yöntemi protein dizilerine uyarlanmış, Metapath2Vec algoritması kullanılarak dizilerin temsillerini öğrenmek için grafik tabanlı bir yaklaşım geliştirilmiştir. Sonuçlar, proteinlerin kelime tabanlı temsillerini kullanmanın grafik tabanlı yaklaşımın performansını arttırdığını göstermektedir. Ayrıca, metin temsilleme öğrenme yöntemleri SeqVec ve ProtBERT de değerlendirilmiş ve grafik methodu ile karşılaştırılmıştır. Üç farklı veri kümesinde elde edilen sonuçlar, geliştirilen yaklaşımın umut verici olduğunu ve mevcut ileri seviye yöntemlere benzer performans elde ettiğini göstermektedir.
Özet (Çeviri)
Infections caused by pathogens are a significant problem around the world. Determining protein interactions between pathogens and hosts is critical to understanding infection mechanisms and developing prevention and treatment strategies. Wet-lab experiments to identify protein interactions are expensive and time-consuming. Therefore, computational approaches have been proposed as a promising complementary solution. While 3D structures of proteins contain helpful information about protein functions, with advances in sequencing technology, 1D sequences of proteins are widely available and are often utilized because they are easier to process with less computational power. The main goal of this thesis is to develop a sequence-based approach for predicting pathogen-host protein interactions based on the hypothesis that protein sequences can be viewed as sentences, therefore, can be decomposed into chunks, which we refer to as protein words. We first adapt the Byte Pair Encoding (BPE) tokenization method from the field of natural language processing to protein sequences and then apply a graph-based approach using the Metapath2Vec algorithm to learn representations of sequences. The results show that incorporating a word-based representation of proteins improves the performance of the graph-based approach. In addition, two other methods for learning text representations, SeqVec and ProtBERT, are evaluated for predicting pathogen-host protein interactions. The results on three virus-host protein interaction datasets show that the sequence-based protein representation approaches are promising and achieve comparable performance to the state-of-the-art methods.
Benzer Tezler
- SARS-CoV-2 proteini ile insan proteini arasindaki etkileşimlerin makine öğrenmesi yöntemleri ile tahmini
Prediction of interactions between SARS-CoV-2 protein and human protein using machine learning methods
FİRDES GÜL KORKUT
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT GÖK
- Konak-patojen protein etkileşiminin hesaplamalı yöntemler ile tahmini
Prediction of host-pathogen protein interactions by computational methods
İRFAN KÖSESOY
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEMİL ÖZ
DOÇ. DR. MURAT GÖK
- HMI-PRED: Design and implementation of a webserver for host-microbe interactions prediction
HMI-PRED: Konak-mikrop protein etkileşiminin tahmini için web sunucusu tasarımı ve geliştirilmesi
ASMA OMAR HAKOUZ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Prof. Dr. ATTİLA GÜRSOY
Prof. Dr. ZEHRA ÖZLEM KESKİN ÖZKAYA
- Biyoinformatik yöntemler kullanılarak kene patojenlerinin moleküler verilerinde aşı adayı bölgelerinin saptanması
Bioinformatics detection of vaccine candidate regions in molecular data of tick pathogens
AHMET EFE KÖSEOĞLU
- Zika ve Dang virüsleri NS4A proteini ile insan Sec61G proteini glikozilasyon profillerinin glikoinformatik analizi ve protein-protein etkileşimlerinin farklı moleküler docking yaklaşımları ile hesaplamalı analizi
Glycoinformatics analysis of the glycosylation profiles of Zika and Dengue viruses NS4A protein and human sec61g protein and computational analysis of the protein-protein interactions with different molecular docking approaches
MUHAMMET USLUPEHLİVAN