Biomolecular language processing for drug-target affinity prediction
İlaç-hedef bağlılık ilgisi tahmini için biyomoleküler dil işleme
- Tez No: 730998
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 120
Özet
Yüksek bağlılık ilgisi gösteren protein-kimyasal çiftlerinin tespiti ilaç keşfinin önemli bir adımıdır. Ancak, mevcut protein ve kimyasal sayısı deneysel olarak taranamayacak bir kombinasyon uzayı oluşturmakta ve hesaplamalı yöntemler gerektirmektedir. Bu aşamada ilaç-hedef bağlılık ilgisi tahmini modelleri sahne alır ve yüksek bağlılık ilgisi gösteren çiftleri hızla tespit ederler. Bu tez, en üst düzey başarımlı ilaç-hedef bağlılık ilgisi tahmini modelleri ve model eğitim stratejileri önerir. Önerilen yaklaşımlar protein ve kimyasal dizilerini biyomoleküler dildeki dökümanlar olarak gören biyomoleküler dil işleme tekniklerini kullanırlar. Biyomoleküler dilin birimleri, veya biyomoleküler kelimeler, büyük biyomolekül derlemlerinde keşfedilmiştir ve farmakolojik olarak değerli bulunmuştur. Biyomoleküler kelimeler özgün bir ilaç-hedef bağlılık tahmini sistemi, ChemBoost, geliştirmek için kullanılmıştır. ChemBoost biyomoleküler kelime tabanlı vektör temsilleri sayesinde en üst düzey başarıma ulaşmıştır. Deneyler ayrıca eğitim kümesinde olmayan biyomoleküllerin bütün ilaç-hedef bağlılık ilgisi tahmini modellerini zorladığını göstermiştir. Bu probleme çözüm olarak, doğal dil işlemeden ilham alan bir model eğitim stratejisi, DebiasedDTA, geliştirilmiştir. Değelendirmeler DebiasedDTA stratejisinin tahmin modellerini hem eğitim kümesininde bulunan hem de bulunmayan biyomoleküllerde güçlendirdiğini göstermiştir. ChemBoost ve DebiasedDTA pydta adında açık kaynak kodlu bir python kütüphanesi olarak yayımlanmıştır.
Özet (Çeviri)
Finding high-affinity protein-chemical pairs is a prominent stage of the drug discovery pipeline. However, the number of available proteins and chemicals forms an experimentally insurmountable combination space and necessitates computational approaches. Drug-target affinity prediction models come into play here and rapidly highlight the high-affinity pairs. This thesis introduces state-of-the-art drug-target affinity prediction models and training strategies to facilitate drug discovery studies. The introduced approaches leverage biomolecular language processing techniques which interpret the chemicals and proteins as documents formed in biomolecular languages. The units of bimolecular languages, named biomolecular words, are discovered in large corpora and pharmacologically verified as meaningful substructures. The biomolecular words are used to develop a novel drug-target affinity prediction framework: ChemBoost. ChemBoost models leverage the biomolecule word-driven representations and achieve state-of-the-art prediction performance. The experiments also demonstrate that unseen biomolecules challenge all drug-target affinity prediction models and reveal a generalizability problem. A language-inspired model training framework, DebiasedDTA, is introduced to target the problem. The evaluations indicate that DebiasedDTA boosts models on seen and unseen biomolecules, especially when the target pair is dissimilar to training biomolecules. ChemBoost and DebiasedDTA are published as an open-source python package, pydta.
Benzer Tezler
- Next-generation cell type annotation: Integrating NLP and ML techniques for enhanced scRNA classification
Yeni nesil hücre tipi anotasyonu: Geliştirilmiş scRNA sınıflandırması için NLP ve ML tekniklerinin entegrasyonu
ORÇUN SAMİ TANDOĞAN
Yüksek Lisans
İngilizce
2024
BiyoteknolojiOrta Doğu Teknik ÜniversitesiBiyoteknoloji Ana Bilim Dalı
YRD. DOÇ. DR. AYBAR CAN ACAR
DOÇ. DR. CAN ÖZEN
- Empowering heterogeneous networks for drug-target affinity prediction
İlaç-hedef bağlılık ilgisi tahmini için heterojen ağları güçlendirme
SELEN PARLAR ÖZÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
- Similarity search and analysis of protein sequences and structures: A residue contacts based approach
Protein dizilerinin ve yapılarının benzerlik araması ve analizi: Amino asit temaslarına dayalı bir yaklaşım
AHMET SAÇAN
Doktora
İngilizce
2008
BiyolojiOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN FERHATOSMANOĞLU
PROF. DR. İ. HAKKI TOROSLU
- Proteinlerin subselüler yerleşimlerinin görüntü, sekans ve interaktom verisi tabanlı tahmini
Image, sequence and interactome based prediction of subcellular localization of proteins
ECEM KUŞCUOĞLU
Yüksek Lisans
İngilizce
2024
BiyoistatistikHacettepe ÜniversitesiBiyoenformatik Ana Bilim Dalı
PROF. DR. TUNCA DOĞAN
- Proteinlerin yapısal özelliklerinin ve dinamik davranışlarının veri madenciliği, bilgisayar grafikleri, web teknolojileri kullanılarak analiz edilmesini ve görselleştirilmesini sağlayacak platform bağımsız web-uygulaması geliştirilmesi
Developing platform independent web-application is to analyse and visualize protein's structural qualities and dynamic behaviours by using data mining, computer graphics and web technologies
ŞEYMA YAMAN
Yüksek Lisans
Türkçe
2017
BiyoteknolojiGaziantep ÜniversitesiBiyoenformatik ve Bilişimsel Biyoloji Ana Bilim Dalı
DOÇ. DR. HÜSEYİN KAYA
PROF. DR. AHMET ARSLAN