Improving deepkinzero with protein languages models and transductive learning
Protein dil modelleri ve transdüktif öğrenme ile deepkinzero'yu iyileştirme
- Tez No: 895115
- Danışmanlar: DOÇ. ÖZNUR TAŞTAN OKAN, DOÇ. RAMAZAN GÖKBERK CİNBİŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Fosforilasyon, hücre sinyalizasyonu da dahil olmak üzere birçok hücresel süreci düzenleyen kritik bir protein çevrimi sonrası değişimdir. Kinazlar, fosforilasyon olaylarını katalize eden enzimlerdir. Hücre içindeki önemli rolleri nedeniyle kinazlar başlıca ilaç hedefleridir. Sübstrat proteininde, fosfat grubunun bağlandığı amino asit fosfosit olarak adlandırılır. Yüksek verimli deneysel teknikler fosfositleri tespit edebilirken, bu bölgeleri fosforile eden spesifik kinazları tanımlamak hala zorlayıcı bir problemdir. Genel olarak denetimli öğrenme tekniklerine ve mevcut deneysel olarak ispatlanmış veri setlerine dayanan hesaplamalı yöntemler, yeterince örnek olmaması nedeniyle az çalışılmış kinazlar (karanlık kinazlar olarak da adlandırılır) için yetersiz kalmaktadır. Araştırma grubumuz daha önceden bu veri kısıtını ele alarak karanlık kinazların tahminini sıfır örnekli öğrenme problemi olarak çerçevelemiş ve DeepKinZero modelini tanıtmıştı. DeepKinZero, fosfosit ve çevresindeki diziyi ve kinaz özelliklerini kullanarak çok çalışılmış kinazlardan az çalışılmış kinazlara bilgi aktararak tahminler yapar. Bu çalışmada, DeepKinZero'yu çeşitli yönlerden geliştirmeyi amaçlıyoruz. Öncelikle, problemin sıfır örnekli yapısına ek olarak kinaz grup üyeliklerini ve kinaz dizi benzerliklerini de ele alan yeni bir değerlendirme kurulumu sunuyoruz, başka bir ifadeyle, bu stratejileri ele alan yeni bir denek seti sunuyoruz. DARKIN ismini verdiğimiz bu denek seti, sıfır örnekli bir kurulumda karanlık kinazların kinaz-fosfosit tahminini doğru bir şekilde yapabilmek için tasarlanmış zorlayıcı ve değerli bir denek seti olarak işlev görür. İkinci olarak, protein dizilerini temsil eden vektörleri bu kurulumda çeşitli protein dil modellerini değerlendirerek geliştiriyoruz. Çalışmamız dahilinde, protein dil modellerinin temsil gücünü kıyaslamak için sıfır örnekli k-NN modeli ve sıfır örnekli ikili doğrusal model olmak üzere iki tane sıfır örnekli model sunuyoruz. Üçüncü olarak, kinaz aktif bölgelerinin kullanılmasının, tüm kinaz alanının kullanılması kadar etkili olabileceğini gösteriyoruz. Kinaz aktif bölgeleri kullanılarak eğitilen bu modelin orjinal DeepKinZero performansını kısmen geçebildiğini gösteriyoruz. Ayrıca, etiketlenmemiş fosfositlerin bilinen fosfosit dizilerinden yararlanmak için transdüktif öğrenme ve sözde-etiketleme stratejilerini kullandığımız iki modeli DeepKinZero kurulumuna entegre ederek deneyler gerçekleştiriyoruz.
Özet (Çeviri)
Phosphorylation is a critical post-translational modification that regulates numerous cellular processes, including cell signaling. Kinases are the enzymes responsible for catalyzing phosphorylation events. Due to their essential roles in the cell, kinases are the major drug targets. The amino acid residue that receives the phosphate in the substrate protein is termed a phosphosite. While high-throughput experimental techniques can detect phosphosites, identifying the specific kinases that phosphorylate these sites remains challenging. Computational methods, which typically rely on supervised techniques and existing training data, fall short for understudied kinases, also known as dark kinases, due to insufficient examples for training. Our research group previously addressed this data limitation by framing the prediction of dark kinases as a zero-shot learning problem and introduced DeepKinZero. DeepKinZero takes the phosphosite and its surrounding sequence and kinase attributes and transfers knowledge from well-studied kinases to understudied kinases to make predictions. In this thesis, we aim to enhance DeepKinZero in several aspects. Firstly, we present a new evaluation setup where the evaluation splitting strategy takes into account not only the zero-shot nature of the problem but also the kinase group memberships, and kinase sequence similarities. This benchmark dataset, DARKIN, serves as a challenging and valuable benchmark designed to accurately assess zero-shot learning performance for dark kinase-phosphosite prediction tasks. Secondly, we improve the protein sequence representation by evaluating various protein language models in this task. As part of this study, two zero-shot models—a zero-shot k-NN model and a zero-shot bi-linear model—have been presented to benchmark the representation power of protein language models. Thirdly, we demonstrate that using kinase active sites can be as effective as using the entire kinase domain. These active sites slightly surpass the performance of the original DeepKinZero model. Additionally, we explore a transductive approach and pseudo-labeling strategies to leverage the known phosphosite sequences of the unlabeled phosphosites.
Benzer Tezler
- Madde bağımlılığının önlenmesinde eczacıların rollerinin iyileştirilmesine yönelik bir araştırma
Improving the role of pharmacists in drug abuse prevention
SELEN YEĞENOĞLU
Doktora
Türkçe
1999
Eczacılık ve FarmakolojiHacettepe ÜniversitesiEczacılık İşletmeciliği ve Mevzuatı Ana Bilim Dalı
PROF.DR. İSMAİL ÜSTEL
- Hava ısıtmalı güneş kollektörlerinde pasif elemanlar yardımıyla verim artırma
Improving the effectiveness by passive elemants in solar air collectors
AYNUR UÇAR
Yüksek Lisans
Türkçe
1999
Makine MühendisliğiFırat ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA İNALLI
- Toplam verimli bakım (tvb) anlayışı ile iyileştirme ve ekipman performansının artırılması
Improving and increasing machine performance loy using total productive maintenance (TPM) approach
M. LEVENT KOCAALAN
Yüksek Lisans
Türkçe
1999
Endüstri ve Endüstri MühendisliğiGazi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLAL TOKLU
- Kaynak bölgesi özelliklerinin termomekanik işlem ile geliştirilmesi (Modifikasyon)
Başlık çevirisi yok
KUBİLAY KARACİF
Yüksek Lisans
Türkçe
1998
Eğitim ve ÖğretimGazi ÜniversitesiMetalurji Eğitimi Ana Bilim Dalı
DOÇ.DR. BURHANETTİN İNEM
- İmar planlarının uygulanabilirliklerinin artırılması
Improving of The Applicability of Urban Plans
KAMİL KARATAŞ
Yüksek Lisans
Türkçe
1998
Jeodezi ve FotogrametriKaradeniz Teknik ÜniversitesiJeodezi ve Fotogrametri Mühendisliği Ana Bilim Dalı
DOÇ. DR. CEMAL BIYIK