Biomolecular language processing for drug-target affinity prediction

İlaç-hedef bağlılık ilgisi tahmini için biyomoleküler dil işleme

PDF İndir

Tez No: 730998
Yazar: RIZA ÖZÇELİK
Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 120

Özet

Yüksek bağlılık ilgisi gösteren protein-kimyasal çiftlerinin tespiti ilaç keşfinin önemli bir adımıdır. Ancak, mevcut protein ve kimyasal sayısı deneysel olarak taranamayacak bir kombinasyon uzayı oluşturmakta ve hesaplamalı yöntemler gerektirmektedir. Bu aşamada ilaç-hedef bağlılık ilgisi tahmini modelleri sahne alır ve yüksek bağlılık ilgisi gösteren çiftleri hızla tespit ederler. Bu tez, en üst düzey başarımlı ilaç-hedef bağlılık ilgisi tahmini modelleri ve model eğitim stratejileri önerir. Önerilen yaklaşımlar protein ve kimyasal dizilerini biyomoleküler dildeki dökümanlar olarak gören biyomoleküler dil işleme tekniklerini kullanırlar. Biyomoleküler dilin birimleri, veya biyomoleküler kelimeler, büyük biyomolekül derlemlerinde keşfedilmiştir ve farmakolojik olarak değerli bulunmuştur. Biyomoleküler kelimeler özgün bir ilaç-hedef bağlılık tahmini sistemi, ChemBoost, geliştirmek için kullanılmıştır. ChemBoost biyomoleküler kelime tabanlı vektör temsilleri sayesinde en üst düzey başarıma ulaşmıştır. Deneyler ayrıca eğitim kümesinde olmayan biyomoleküllerin bütün ilaç-hedef bağlılık ilgisi tahmini modellerini zorladığını göstermiştir. Bu probleme çözüm olarak, doğal dil işlemeden ilham alan bir model eğitim stratejisi, DebiasedDTA, geliştirilmiştir. Değelendirmeler DebiasedDTA stratejisinin tahmin modellerini hem eğitim kümesininde bulunan hem de bulunmayan biyomoleküllerde güçlendirdiğini göstermiştir. ChemBoost ve DebiasedDTA pydta adında açık kaynak kodlu bir python kütüphanesi olarak yayımlanmıştır.

Özet (Çeviri)

Finding high-affinity protein-chemical pairs is a prominent stage of the drug discovery pipeline. However, the number of available proteins and chemicals forms an experimentally insurmountable combination space and necessitates computational approaches. Drug-target affinity prediction models come into play here and rapidly highlight the high-affinity pairs. This thesis introduces state-of-the-art drug-target affinity prediction models and training strategies to facilitate drug discovery studies. The introduced approaches leverage biomolecular language processing techniques which interpret the chemicals and proteins as documents formed in biomolecular languages. The units of bimolecular languages, named biomolecular words, are discovered in large corpora and pharmacologically verified as meaningful substructures. The biomolecular words are used to develop a novel drug-target affinity prediction framework: ChemBoost. ChemBoost models leverage the biomolecule word-driven representations and achieve state-of-the-art prediction performance. The experiments also demonstrate that unseen biomolecules challenge all drug-target affinity prediction models and reveal a generalizability problem. A language-inspired model training framework, DebiasedDTA, is introduced to target the problem. The evaluations indicate that DebiasedDTA boosts models on seen and unseen biomolecules, especially when the target pair is dissimilar to training biomolecules. ChemBoost and DebiasedDTA are published as an open-source python package, pydta.

Benzer Tezler

Tez No
897390
Next-generation cell type annotation: Integrating NLP and ML techniques for enhanced scRNA classification
Yeni nesil hücre tipi anotasyonu: Geliştirilmiş scRNA sınıflandırması için NLP ve ML tekniklerinin entegrasyonu
ORÇUN SAMİ TANDOĞAN
Yüksek Lisans
İngilizce
2024
Biyoteknoloji Orta Doğu Teknik Üniversitesi
Biyoteknoloji Ana Bilim Dalı
YRD. DOÇ. DR. AYBAR CAN ACAR
DOÇ. DR. CAN ÖZEN
Tez No
731271
Empowering heterogeneous networks for drug-target affinity prediction
İlaç-hedef bağlılık ilgisi tahmini için heterojen ağları güçlendirme
SELEN PARLAR ÖZÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
Tez No
176779
Similarity search and analysis of protein sequences and structures: A residue contacts based approach
Protein dizilerinin ve yapılarının benzerlik araması ve analizi: Amino asit temaslarına dayalı bir yaklaşım
AHMET SAÇAN
Doktora
İngilizce
2008
Biyoloji Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN FERHATOSMANOĞLU
PROF. DR. İ. HAKKI TOROSLU
Tez No
847092
Proteinlerin subselüler yerleşimlerinin görüntü, sekans ve interaktom verisi tabanlı tahmini
Image, sequence and interactome based prediction of subcellular localization of proteins
ECEM KUŞCUOĞLU
Yüksek Lisans
İngilizce
2024
Biyoistatistik Hacettepe Üniversitesi
Biyoenformatik Ana Bilim Dalı
PROF. DR. TUNCA DOĞAN
Tez No
474016
Proteinlerin yapısal özelliklerinin ve dinamik davranışlarının veri madenciliği, bilgisayar grafikleri, web teknolojileri kullanılarak analiz edilmesini ve görselleştirilmesini sağlayacak platform bağımsız web-uygulaması geliştirilmesi
Developing platform independent web-application is to analyse and visualize protein's structural qualities and dynamic behaviours by using data mining, computer graphics and web technologies
ŞEYMA YAMAN
Yüksek Lisans
Türkçe
2017
Biyoteknoloji Gaziantep Üniversitesi
Biyoenformatik ve Bilişimsel Biyoloji Ana Bilim Dalı
DOÇ. DR. HÜSEYİN KAYA
PROF. DR. AHMET ARSLAN

Geri Dön