Geri Dön

Improving deepkinzero with protein languages models and transductive learning

Protein dil modelleri ve transdüktif öğrenme ile deepkinzero'yu iyileştirme

  1. Tez No: 895115
  2. Yazar: EMİNE AYŞE SUNAR
  3. Danışmanlar: DOÇ. ÖZNUR TAŞTAN OKAN, DOÇ. RAMAZAN GÖKBERK CİNBİŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 105

Özet

Fosforilasyon, hücre sinyalizasyonu da dahil olmak üzere birçok hücresel süreci düzenleyen kritik bir protein çevrimi sonrası değişimdir. Kinazlar, fosforilasyon olaylarını katalize eden enzimlerdir. Hücre içindeki önemli rolleri nedeniyle kinazlar başlıca ilaç hedefleridir. Sübstrat proteininde, fosfat grubunun bağlandığı amino asit fosfosit olarak adlandırılır. Yüksek verimli deneysel teknikler fosfositleri tespit edebilirken, bu bölgeleri fosforile eden spesifik kinazları tanımlamak hala zorlayıcı bir problemdir. Genel olarak denetimli öğrenme tekniklerine ve mevcut deneysel olarak ispatlanmış veri setlerine dayanan hesaplamalı yöntemler, yeterince örnek olmaması nedeniyle az çalışılmış kinazlar (karanlık kinazlar olarak da adlandırılır) için yetersiz kalmaktadır. Araştırma grubumuz daha önceden bu veri kısıtını ele alarak karanlık kinazların tahminini sıfır örnekli öğrenme problemi olarak çerçevelemiş ve DeepKinZero modelini tanıtmıştı. DeepKinZero, fosfosit ve çevresindeki diziyi ve kinaz özelliklerini kullanarak çok çalışılmış kinazlardan az çalışılmış kinazlara bilgi aktararak tahminler yapar. Bu çalışmada, DeepKinZero'yu çeşitli yönlerden geliştirmeyi amaçlıyoruz. Öncelikle, problemin sıfır örnekli yapısına ek olarak kinaz grup üyeliklerini ve kinaz dizi benzerliklerini de ele alan yeni bir değerlendirme kurulumu sunuyoruz, başka bir ifadeyle, bu stratejileri ele alan yeni bir denek seti sunuyoruz. DARKIN ismini verdiğimiz bu denek seti, sıfır örnekli bir kurulumda karanlık kinazların kinaz-fosfosit tahminini doğru bir şekilde yapabilmek için tasarlanmış zorlayıcı ve değerli bir denek seti olarak işlev görür. İkinci olarak, protein dizilerini temsil eden vektörleri bu kurulumda çeşitli protein dil modellerini değerlendirerek geliştiriyoruz. Çalışmamız dahilinde, protein dil modellerinin temsil gücünü kıyaslamak için sıfır örnekli k-NN modeli ve sıfır örnekli ikili doğrusal model olmak üzere iki tane sıfır örnekli model sunuyoruz. Üçüncü olarak, kinaz aktif bölgelerinin kullanılmasının, tüm kinaz alanının kullanılması kadar etkili olabileceğini gösteriyoruz. Kinaz aktif bölgeleri kullanılarak eğitilen bu modelin orjinal DeepKinZero performansını kısmen geçebildiğini gösteriyoruz. Ayrıca, etiketlenmemiş fosfositlerin bilinen fosfosit dizilerinden yararlanmak için transdüktif öğrenme ve sözde-etiketleme stratejilerini kullandığımız iki modeli DeepKinZero kurulumuna entegre ederek deneyler gerçekleştiriyoruz.

Özet (Çeviri)

Phosphorylation is a critical post-translational modification that regulates numerous cellular processes, including cell signaling. Kinases are the enzymes responsible for catalyzing phosphorylation events. Due to their essential roles in the cell, kinases are the major drug targets. The amino acid residue that receives the phosphate in the substrate protein is termed a phosphosite. While high-throughput experimental techniques can detect phosphosites, identifying the specific kinases that phosphorylate these sites remains challenging. Computational methods, which typically rely on supervised techniques and existing training data, fall short for understudied kinases, also known as dark kinases, due to insufficient examples for training. Our research group previously addressed this data limitation by framing the prediction of dark kinases as a zero-shot learning problem and introduced DeepKinZero. DeepKinZero takes the phosphosite and its surrounding sequence and kinase attributes and transfers knowledge from well-studied kinases to understudied kinases to make predictions. In this thesis, we aim to enhance DeepKinZero in several aspects. Firstly, we present a new evaluation setup where the evaluation splitting strategy takes into account not only the zero-shot nature of the problem but also the kinase group memberships, and kinase sequence similarities. This benchmark dataset, DARKIN, serves as a challenging and valuable benchmark designed to accurately assess zero-shot learning performance for dark kinase-phosphosite prediction tasks. Secondly, we improve the protein sequence representation by evaluating various protein language models in this task. As part of this study, two zero-shot models—a zero-shot k-NN model and a zero-shot bi-linear model—have been presented to benchmark the representation power of protein language models. Thirdly, we demonstrate that using kinase active sites can be as effective as using the entire kinase domain. These active sites slightly surpass the performance of the original DeepKinZero model. Additionally, we explore a transductive approach and pseudo-labeling strategies to leverage the known phosphosite sequences of the unlabeled phosphosites.

Benzer Tezler

  1. Çift fazlı çeliklerde mikroyapının iyileştirilmesi

    Improving the microstructure of dual-phase steels

    MUSTAFA İNANÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Makine MühendisliğiTOBB Ekonomi ve Teknoloji Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CİHAN TEKOĞLU

  2. Improving flow structure and natural convection within fin spacings of plate fin heat sinks

    Plaka tipi ısı atıcılarda akış yapısının ve doğal taşınımın arttırılması

    MEHMET ERDEM ÖZET

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Makine MühendisliğiOrta Doğu Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLKER TARI

  3. Eş zamanlı konum belirleme ve harita oluşturma probleminin çözümünde kullanılan yöntemlerin iyileştirilmesi

    Improving the methods used in simultaneous localization and mapping

    HAYDAR ANKIŞHAN

    Doktora

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik MühendisliğiAnkara Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. FİKRET ARI

  4. PEM yakıt hücresi katotunda oksijen indirgenme reaksiyonu hızının geliştirilmesi ve mekanizmasının incelenmesi

    Improving the rate of oxygen reduction reaction at the cathode of PEM fuel cell and investigation of its mechanism

    SİLVER GÜNEŞ

    Doktora

    Türkçe

    Türkçe

    2015

    EnerjiGazi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. FATMA ÇİĞDEM GÜLDÜR

  5. Doğrudan sodyum borhidrürlü yakıt hücre bileşenlerinin modifikasyonu ile hücre performansının artırılması

    Improving the performance of direct sodium borohydride fuel cell with components modification

    MERVE GÖRDESEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Kimya MühendisliğiGazi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. BEKİR ZÜHTÜ UYSAL

    DOÇ. DR. AYŞE ELİF SANLI