Modeling viral evolution with natural language processing

Doğal dil işleme ile viral evrimin modellenmesi

PDF İndir

Tez No: 956916
Yazar: SAMET TENEKECİ
Danışmanlar: DOÇ. DR. SELMA TEKİR, PROF. DR. EFE SEZGİN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İzmir Yüksek Teknoloji Enstitüsü
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 116

Özet

Etkili önleyici tedaviler geliştirmek için viral evrimin ardındaki karmaşık kuralları ve mekanizmaları anlamak kritik önem taşır; ancak bağışıklık sisteminden kaçan mutasyonların tahmini hala önemli bir zorluk teşkil etmektedir. Protein dil modellerindeki son gelişmeler, viral kaçışın in silico analizine yönelik yenilikçi yöntemlerin önünü açmıştır. Bu çalışmada, Siamese (CoV-SNN), Üçlü (CoV-TNN) ve Sınıflandırıcı (CoV-CLS) sinir ağı mimarilerine dayanan üç karşıt öğrenme çerçevesi geliştirilmektedir. Bu modeller, düşük maliyetli bir protein dil modelinden (CoV-RoBERTa) elde edilen temsiller üzerinden protein dizileri arasındaki benzerlikleri ve farklılıkları yakalayarak varyantları etkili bir şekilde sınıflandırmaktadır. Modeller, antijenik varyasyonu anlamsal değişimle, viral uyumu ise dilbilgisellikle eşleştirmekte; viral kaçışı tespit etmek için Sınırlı Anlamsal Değişim Arama (CSCS) çerçevesini kullanmaktadır. Önerilen modellerin doğruluk ve verimliliği artırmak için yüksek kaliteli bir SARS-CoV-2 Spike proteini veri kümesi, özel bir belirteçleyici, özgün ikili ve üçlü seçme algoritmaları geliştirilmekte ve yeni bir dilbilgisellik ölçütü önerilmektedir. Geliştirilen modeller, hem laboratuvar ortamında doğrulanmış hem de yapay olarak üretilmiş kaçış mutasyonları üzerinde test edilmektedir. Varyant sınıflandırmada CoV-RoBERTa doğruluğu %5 artırırken, eğitimi 30 kat, tahminlemeyi 45 kat hızlandırmaktadır. Viral kaçış tahmininde CoV-SNN top-K doğruluğu 3.5 kat artırırken, GPU bellek kullanımını 20 kat, ön eğitim süresini 2 kat, tahminleme süresini 125 kat azaltmaktadır. Ayrıca, sıfır atış sınıflandırmasında %91.5 doğruluk sağlamaktadır. Bu sonuçlar, özelleştirilmiş dil modellerinin viroloji alanındaki potansiyelini ortaya koyarak, genomik sürveyans çalışmalarında güçlü bir araç olabileceklerini göstermektedir.

Özet (Çeviri)

Understanding the complex rules and mechanisms behind viral evolution is crucial for developing better preventive treatments, yet predicting immune-evading mutations remains challenging. Recent advances in protein language models have led to novel approaches for in silico analysis of viral escape. In this work, we introduce three contrastive learning frameworks based on Siamese (CoV-SNN), Triplet (CoV-TNN), and Classifier (CoV-CLS) neural networks. These models classify variants by capturing the similarities and differences between their protein sequences through embeddings from a light-weight protein language model (CoV-RoBERTa). The models map antigenic variation to semantic change and viral fitness to grammaticality, employing Constrained Semantic Change Search (CSCS) framework to detect viral escape. To further enhance the accuracy and efficiency of the proposed models, we develop a high-quality SARS-CoV-2 Spike protein dataset, a custom tokenizer, novel pair and triplet selection algorithms, and propose a new proxy for grammaticality. We evaluate our models on novel variant sequences with wet-lab verified and computationally generated escape mutations. For variant classification, CoV-RoBERTa improves accuracy by 5%, while speeding up training and inference by 30 and 45 times. In viral escape prediction, CoV-SNN boosts top-K accuracy by 3.5 times, reduces GPU memory usage by 20 times, halves pre-training time, and speeds up inference by 125 times, achieving 91.5% accuracy in zero-shot classification. Furthermore, our models reach a mean AUC of 0.81 on wet-lab verified escape mutations, outperforming nine baselines. These results demonstrate the potential of domain-specific language models in virology, positioning them as a powerful tool for genomic surveillance studies.

Benzer Tezler

Tez No
46446
Kalite güvence sistemindeki bazı öğelerin denetim sürecine ilişkin bilgi tabanlı bir uzman sistem yaklaşımı
Başlık çevirisi yok
DEMET BAYRAKTAR
Doktora
Türkçe
1995
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
PROF.DR. AYHAN TORAMAN
Tez No
39445
Kırsal bölgelerde bilgi sistemlerinin uygulanması olanakları
Başlık çevirisi yok
DURSUN ZAFER ŞEKER
Doktora
Türkçe
1993
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
PROF.DR. M. ORHAN ALTAN
Tez No
841626
Knowledge-based visual question answering
Bilgi tabanlı görsel soru cevaplama
ZİŞAN YALÇINKAYA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
Tez No
826696
Exploring neural entity linking with pre-trained transformer models for turkish
Türkçe için önceden eğitilmiş dönüştürücü modelleriyle sinirsel varlık ilişkilendirme probleminin keşfedilmesi
FATİH BEYHAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
Tez No
574950
Deep learning based hybrid recommender system
Derin öğrenme tabanlı öneri sistemi
MUHAMMET ÇAKIR
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ

Geri Dön