SumoNet: Deep sequential prediction of SUMOylation sites
SumoNet: SUMOlanma bölgelerinin derin sıralı öğrenme ile tahmini
- Tez No: 761897
- Danışmanlar: DR. ÖĞR. ÜYESİ ÖZNUR TAŞTAN OKAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
SUMOlanma, SUMO'ların (küçük ubikuitin benzeri değiştiriciler) hedef proteinin spesifik bir lizin aminoasidine kovalent olarak bağlandığı, tersine çevrilebilir protein çeviri sonrası modifikasyonudur. SUMOlanma, hücre içi taşıma, DNA onarımı ve hücresel sinyalleşme gibi birçok hücresel olay için önemlidir. SUMOlanma sürecindeki bozukluklar, Alzeimer, kanser ve diyabet dahil olmak üzere çeşitli hastalıklarla bağlantılıdır. Bu nedenle, SUMOlanma bölgelerinin doğru tanımlanması, hücresel süreçleri ve onların aksaması sonucu ortaya çıkan patolojileri anlamak için elzemdir. Bu tezde, peptit dizisini girdi olarak alıp, bu bölgenin SUMOlanıp, SUMOlanmayacağını tahmin eden üç derin öğrenme mimari, SUMOnets, sunuyoruz. SUMOnet-1, -2 ve -3 adını verdiğimiz modellerin her biri biGRU'lar ve CNN'ler gibi derin sıralı öğrenme mimari birimlerinin farklı bileşimine dayanır. Girdi peptid dizilerin farklı gösterimleri ile bu modelleri eğitip, kıyaslama verisinde değerlendirdik. SUMOnet-3 %75,8 AUPR ve %87 AUC sonucu ile en iyi tahmin edici oldu ve bu performans değerleri literatürdeki, en iyi SUMOlaşma tahmini araçlarından yaklaşık %5'lik iyileşmeye denk geliyor. Ayrıca bilinen SUMOlanma motiflerinin var olup olmadığına göre oluşturulan, zor sınama kümesinde, ayrıca bir değerlendirme yaptık. Bu kümede tüm yöntemlerin performansı düşerken, SUMOnet-3 hala bu zorlu durumlarda en iyi tahmin edici olarak performans gösterdi ve literatürdeki diğer yöntemlerin performansı ise ciddi olarak düşüş gösterdi. SUMOnet-3 açık kaynak projesi ve bir Python kütüphanesi olarak https://github.com/berkedilekoglu/SUMOnet adresinde mevcuttur.
Özet (Çeviri)
SUMOylation is a reversible post-translational protein modification in which SUMOs (small ubiquitin-like modifiers) covalently attach to a specific lysine residue of the target protein. This process is vital for many cellular events such as protein binding, subcellular transport, DNA repair, and cellular signaling. Aberrant SUMOylation is linked with several diseases, including Alzheimer's, cancer, and diabetes. Therefore, accurate identification of SUMOylation sites is essential to understanding cellular processes and pathologies that arise with their disruption. In this thesis, we present three deep neural architectures, SUMOnets, that take the peptide sequence centered on the candidate SUMOlylation site as input and predict whether the lysine could be SUMOylated. Each of these models, SUMOnet-1, -2 and -3, relies on different compositions of deep sequential learning architectural units, such as Bidirectional Gated Recurrent Units(biGRUs) and convolutional layers. We evaluate these models on the benchmark dataset with three different input peptide representations of the input sequence. SUMOnet-3 achieves 75.8% AUPR and 87% AUC scores, corresponding to approximately 5% improvement over the closest state-of-the-art SUMOylation predictor. We also create a challenging subset of the test data based on the absence and presence of known SUMOylation motifs. Even though the performances of all methods degrade in these cases, SUMOnet-3 remains the best predictor in these challenging cases, and the current methods' predictive abilities decrease significantly. The SUMOnet-3 framework is available as an open source project and a Python library at https://github.com/berkedilekoglu/SUMOnet.