Geri Dön

Modeling viral evolution with natural language processing

Doğal dil işleme ile viral evrimin modellenmesi

  1. Tez No: 956916
  2. Yazar: SAMET TENEKECİ
  3. Danışmanlar: DOÇ. DR. SELMA TEKİR, PROF. DR. EFE SEZGİN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 116

Özet

Etkili önleyici tedaviler geliştirmek için viral evrimin ardındaki karmaşık kuralları ve mekanizmaları anlamak kritik önem taşır; ancak bağışıklık sisteminden kaçan mutasyonların tahmini hala önemli bir zorluk teşkil etmektedir. Protein dil modellerindeki son gelişmeler, viral kaçışın in silico analizine yönelik yenilikçi yöntemlerin önünü açmıştır. Bu çalışmada, Siamese (CoV-SNN), Üçlü (CoV-TNN) ve Sınıflandırıcı (CoV-CLS) sinir ağı mimarilerine dayanan üç karşıt öğrenme çerçevesi geliştirilmektedir. Bu modeller, düşük maliyetli bir protein dil modelinden (CoV-RoBERTa) elde edilen temsiller üzerinden protein dizileri arasındaki benzerlikleri ve farklılıkları yakalayarak varyantları etkili bir şekilde sınıflandırmaktadır. Modeller, antijenik varyasyonu anlamsal değişimle, viral uyumu ise dilbilgisellikle eşleştirmekte; viral kaçışı tespit etmek için Sınırlı Anlamsal Değişim Arama (CSCS) çerçevesini kullanmaktadır. Önerilen modellerin doğruluk ve verimliliği artırmak için yüksek kaliteli bir SARS-CoV-2 Spike proteini veri kümesi, özel bir belirteçleyici, özgün ikili ve üçlü seçme algoritmaları geliştirilmekte ve yeni bir dilbilgisellik ölçütü önerilmektedir. Geliştirilen modeller, hem laboratuvar ortamında doğrulanmış hem de yapay olarak üretilmiş kaçış mutasyonları üzerinde test edilmektedir. Varyant sınıflandırmada CoV-RoBERTa doğruluğu %5 artırırken, eğitimi 30 kat, tahminlemeyi 45 kat hızlandırmaktadır. Viral kaçış tahmininde CoV-SNN top-K doğruluğu 3.5 kat artırırken, GPU bellek kullanımını 20 kat, ön eğitim süresini 2 kat, tahminleme süresini 125 kat azaltmaktadır. Ayrıca, sıfır atış sınıflandırmasında %91.5 doğruluk sağlamaktadır. Bu sonuçlar, özelleştirilmiş dil modellerinin viroloji alanındaki potansiyelini ortaya koyarak, genomik sürveyans çalışmalarında güçlü bir araç olabileceklerini göstermektedir.

Özet (Çeviri)

Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.

Benzer Tezler

  1. Kırsal bölgelerde bilgi sistemlerinin uygulanması olanakları

    Başlık çevirisi yok

    DURSUN ZAFER ŞEKER

    Doktora

    Türkçe

    Türkçe

    1993

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    PROF.DR. M. ORHAN ALTAN

  2. Knowledge-based visual question answering

    Bilgi tabanlı görsel soru cevaplama

    ZİŞAN YALÇINKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ANIL BAŞ

  3. Exploring neural entity linking with pre-trained transformer models for turkish

    Türkçe için önceden eğitilmiş dönüştürücü modelleriyle sinirsel varlık ilişkilendirme probleminin keşfedilmesi

    FATİH BEYHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

  4. Deep learning based hybrid recommender system

    Derin öğrenme tabanlı öneri sistemi

    MUHAMMET ÇAKIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ