Modeling viral evolution with natural language processing
Doğal dil işleme ile viral evrimin modellenmesi
- Tez No: 956916
- Danışmanlar: DOÇ. DR. SELMA TEKİR, PROF. DR. EFE SEZGİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İzmir Yüksek Teknoloji Enstitüsü
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 116
Özet
Etkili önleyici tedaviler geliştirmek için viral evrimin ardındaki karmaşık kuralları ve mekanizmaları anlamak kritik önem taşır; ancak bağışıklık sisteminden kaçan mutasyonların tahmini hala önemli bir zorluk teşkil etmektedir. Protein dil modellerindeki son gelişmeler, viral kaçışın in silico analizine yönelik yenilikçi yöntemlerin önünü açmıştır. Bu çalışmada, Siamese (CoV-SNN), Üçlü (CoV-TNN) ve Sınıflandırıcı (CoV-CLS) sinir ağı mimarilerine dayanan üç karşıt öğrenme çerçevesi geliştirilmektedir. Bu modeller, düşük maliyetli bir protein dil modelinden (CoV-RoBERTa) elde edilen temsiller üzerinden protein dizileri arasındaki benzerlikleri ve farklılıkları yakalayarak varyantları etkili bir şekilde sınıflandırmaktadır. Modeller, antijenik varyasyonu anlamsal değişimle, viral uyumu ise dilbilgisellikle eşleştirmekte; viral kaçışı tespit etmek için Sınırlı Anlamsal Değişim Arama (CSCS) çerçevesini kullanmaktadır. Önerilen modellerin doğruluk ve verimliliği artırmak için yüksek kaliteli bir SARS-CoV-2 Spike proteini veri kümesi, özel bir belirteçleyici, özgün ikili ve üçlü seçme algoritmaları geliştirilmekte ve yeni bir dilbilgisellik ölçütü önerilmektedir. Geliştirilen modeller, hem laboratuvar ortamında doğrulanmış hem de yapay olarak üretilmiş kaçış mutasyonları üzerinde test edilmektedir. Varyant sınıflandırmada CoV-RoBERTa doğruluğu %5 artırırken, eğitimi 30 kat, tahminlemeyi 45 kat hızlandırmaktadır. Viral kaçış tahmininde CoV-SNN top-K doğruluğu 3.5 kat artırırken, GPU bellek kullanımını 20 kat, ön eğitim süresini 2 kat, tahminleme süresini 125 kat azaltmaktadır. Ayrıca, sıfır atış sınıflandırmasında %91.5 doğruluk sağlamaktadır. Bu sonuçlar, özelleştirilmiş dil modellerinin viroloji alanındaki potansiyelini ortaya koyarak, genomik sürveyans çalışmalarında güçlü bir araç olabileceklerini göstermektedir.
Özet (Çeviri)
Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.
Benzer Tezler
- Kalite güvence sistemindeki bazı öğelerin denetim sürecine ilişkin bilgi tabanlı bir uzman sistem yaklaşımı
Başlık çevirisi yok
DEMET BAYRAKTAR
- Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
- Exploring neural entity linking with pre-trained transformer models for turkish
Türkçe için önceden eğitilmiş dönüştürücü modelleriyle sinirsel varlık ilişkilendirme probleminin keşfedilmesi
FATİH BEYHAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Deep learning based hybrid recommender system
Derin öğrenme tabanlı öneri sistemi
MUHAMMET ÇAKIR
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ