Improving deepkinzero with protein languages models and transductive learning
Protein dil modelleri ve transdüktif öğrenme ile deepkinzero'yu iyileştirme
- Tez No: 895115
- Danışmanlar: DOÇ. ÖZNUR TAŞTAN OKAN, DOÇ. RAMAZAN GÖKBERK CİNBİŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 105
Özet
Fosforilasyon, hücre sinyalizasyonu da dahil olmak üzere birçok hücresel süreci düzenleyen kritik bir protein çevrimi sonrası değişimdir. Kinazlar, fosforilasyon olaylarını katalize eden enzimlerdir. Hücre içindeki önemli rolleri nedeniyle kinazlar başlıca ilaç hedefleridir. Sübstrat proteininde, fosfat grubunun bağlandığı amino asit fosfosit olarak adlandırılır. Yüksek verimli deneysel teknikler fosfositleri tespit edebilirken, bu bölgeleri fosforile eden spesifik kinazları tanımlamak hala zorlayıcı bir problemdir. Genel olarak denetimli öğrenme tekniklerine ve mevcut deneysel olarak ispatlanmış veri setlerine dayanan hesaplamalı yöntemler, yeterince örnek olmaması nedeniyle az çalışılmış kinazlar (karanlık kinazlar olarak da adlandırılır) için yetersiz kalmaktadır. Araştırma grubumuz daha önceden bu veri kısıtını ele alarak karanlık kinazların tahminini sıfır örnekli öğrenme problemi olarak çerçevelemiş ve DeepKinZero modelini tanıtmıştı. DeepKinZero, fosfosit ve çevresindeki diziyi ve kinaz özelliklerini kullanarak çok çalışılmış kinazlardan az çalışılmış kinazlara bilgi aktararak tahminler yapar. Bu çalışmada, DeepKinZero'yu çeşitli yönlerden geliştirmeyi amaçlıyoruz. Öncelikle, problemin sıfır örnekli yapısına ek olarak kinaz grup üyeliklerini ve kinaz dizi benzerliklerini de ele alan yeni bir değerlendirme kurulumu sunuyoruz, başka bir ifadeyle, bu stratejileri ele alan yeni bir denek seti sunuyoruz. DARKIN ismini verdiğimiz bu denek seti, sıfır örnekli bir kurulumda karanlık kinazların kinaz-fosfosit tahminini doğru bir şekilde yapabilmek için tasarlanmış zorlayıcı ve değerli bir denek seti olarak işlev görür. İkinci olarak, protein dizilerini temsil eden vektörleri bu kurulumda çeşitli protein dil modellerini değerlendirerek geliştiriyoruz. Çalışmamız dahilinde, protein dil modellerinin temsil gücünü kıyaslamak için sıfır örnekli k-NN modeli ve sıfır örnekli ikili doğrusal model olmak üzere iki tane sıfır örnekli model sunuyoruz. Üçüncü olarak, kinaz aktif bölgelerinin kullanılmasının, tüm kinaz alanının kullanılması kadar etkili olabileceğini gösteriyoruz. Kinaz aktif bölgeleri kullanılarak eğitilen bu modelin orjinal DeepKinZero performansını kısmen geçebildiğini gösteriyoruz. Ayrıca, etiketlenmemiş fosfositlerin bilinen fosfosit dizilerinden yararlanmak için transdüktif öğrenme ve sözde-etiketleme stratejilerini kullandığımız iki modeli DeepKinZero kurulumuna entegre ederek deneyler gerçekleştiriyoruz.
Özet (Çeviri)
Phosphorylation is a critical post-translational modification that regulates numerous cellular processes, including cell signaling. Kinases are the enzymes responsible for catalyzing phosphorylation events. Due to their essential roles in the cell, kinases are the major drug targets. The amino acid residue that receives the phosphate in the substrate protein is termed a phosphosite. While high-throughput experimental techniques can detect phosphosites, identifying the specific kinases that phosphorylate these sites remains challenging. Computational methods, which typically rely on supervised techniques and existing training data, fall short for understudied kinases, also known as dark kinases, due to insufficient examples for training. Our research group previously addressed this data limitation by framing the prediction of dark kinases as a zero-shot learning problem and introduced DeepKinZero. DeepKinZero takes the phosphosite and its surrounding sequence and kinase attributes and transfers knowledge from well-studied kinases to understudied kinases to make predictions. In this thesis, we aim to enhance DeepKinZero in several aspects. Firstly, we present a new evaluation setup where the evaluation splitting strategy takes into account not only the zero-shot nature of the problem but also the kinase group memberships, and kinase sequence similarities. This benchmark dataset, DARKIN, serves as a challenging and valuable benchmark designed to accurately assess zero-shot learning performance for dark kinase-phosphosite prediction tasks. Secondly, we improve the protein sequence representation by evaluating various protein language models in this task. As part of this study, two zero-shot models—a zero-shot k-NN model and a zero-shot bi-linear model—have been presented to benchmark the representation power of protein language models. Thirdly, we demonstrate that using kinase active sites can be as effective as using the entire kinase domain. These active sites slightly surpass the performance of the original DeepKinZero model. Additionally, we explore a transductive approach and pseudo-labeling strategies to leverage the known phosphosite sequences of the unlabeled phosphosites.
Benzer Tezler
- Çift fazlı çeliklerde mikroyapının iyileştirilmesi
Improving the microstructure of dual-phase steels
MUSTAFA İNANÇ
Yüksek Lisans
Türkçe
2015
Makine MühendisliğiTOBB Ekonomi ve Teknoloji ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. CİHAN TEKOĞLU
- Improving flow structure and natural convection within fin spacings of plate fin heat sinks
Plaka tipi ısı atıcılarda akış yapısının ve doğal taşınımın arttırılması
MEHMET ERDEM ÖZET
Yüksek Lisans
İngilizce
2015
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLKER TARI
- Eş zamanlı konum belirleme ve harita oluşturma probleminin çözümünde kullanılan yöntemlerin iyileştirilmesi
Improving the methods used in simultaneous localization and mapping
HAYDAR ANKIŞHAN
Doktora
Türkçe
2015
Elektrik ve Elektronik MühendisliğiAnkara ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. FİKRET ARI
- PEM yakıt hücresi katotunda oksijen indirgenme reaksiyonu hızının geliştirilmesi ve mekanizmasının incelenmesi
Improving the rate of oxygen reduction reaction at the cathode of PEM fuel cell and investigation of its mechanism
SİLVER GÜNEŞ
Doktora
Türkçe
2015
EnerjiGazi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. FATMA ÇİĞDEM GÜLDÜR
- Doğrudan sodyum borhidrürlü yakıt hücre bileşenlerinin modifikasyonu ile hücre performansının artırılması
Improving the performance of direct sodium borohydride fuel cell with components modification
MERVE GÖRDESEL
Yüksek Lisans
Türkçe
2016
Kimya MühendisliğiGazi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. BEKİR ZÜHTÜ UYSAL
DOÇ. DR. AYŞE ELİF SANLI