On the use of large language model for virtual screening
Doğal dil işleme modelinin sanal taramada kullanımı
- Tez No: 826961
- Danışmanlar: PROF. DR. MEHMET VOLKAN ATALAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 99
Özet
İlaç adaylarının bolluğu nedeniyle, belirli bir hedef için etkili bir bileşiği bulmak için laboratuvar deneyleri yapmak maliyetli ve zaman alıcı bir ilaç keşfi sürecidir. Bu tez, erken ilaç keşfi sırasında bileşikleri kümeleyerek ilaç adaylarının sayısını azaltmayı amaçlamaktadır. Bir bileşiğin tanımlayıcı özelliklerini çıkarmak için Yönlü Kodlayıcı Temsili Dönüşümlerden (BERT) bir model olan ChemBERTa kullanılır. K-ortalama kümeleme algoritması ve Butina algoritması gibi çeşitli kümeleme algoritmaları, bileşiklerin öğrenilmiş özelliklerine göre kümelendirilir. Son olarak, elde edilen kümeler Siluet ve Homojenlik Skoru kriterlerine göre değerlendirilir. ChemBERTa modelinin çıktılarının kullanımının, hesaplama süresi ve kümeleme doğruluğu gibi metriklerle gösterilen geleneksel ve grafik tabanlı modellerle karşılaştırılabilir sonuçlar ürettiği, deneylerimizde gösterilmiştir.
Özet (Çeviri)
Due to the abundance of drug candidates, conducting in-lab experiments to find an effective compound for a given target is a costly and time-consuming task in drug discovery. This thesis aims to reduce the number of drug candidates during early drug discovery by clustering the compounds. ChemBERTa, a Bidirectional Encoder Representation from Transformers (BERT) model, is employed to extract the descriptors for a compound. The compounds are clustered with respect to the learned features, and several clustering algorithms, including the k-means clustering algorithm and the Butina algorithm, are used. Finally, obtained clusters are evaluated by measures such as the Silhouette Score and Homogeneity Score. Our empirical findings show that using learned descriptors of ChemBERTa produces results that are comparable with traditional and graph-based models, as shown by metrics of cluster accuracy and computing runtime.
Benzer Tezler
- Okunabilir kopyalama algoritmalı DSM sisteminin gerçeklenmesi
Başlık çevirisi yok
ÖZGÜR KORAY ŞAHİNGÖZ
Yüksek Lisans
Türkçe
1998
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TAKUHİ NADİA ERDOĞAN
- Aircraft detection using deep learning
Derin öğrenme kullanarak hava aracı tespiti
UTKU MUTLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
- Türkçe yazım denetleyen editör
Turkish spelling checker editor
K.MESUT YARIMBIYIKLI
Yüksek Lisans
Türkçe
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ. DR. TAKUHİ NADİA ERDOĞAN
- AJAX tabanlı web sayfalarından veri çıkarımına bir yaklaşım
An approach to data extraction from AJAX-based web pages
OĞUZ KIRAT
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARIK YERLİKAYA
- Hipersezgisel yöntemlerle lojistik ağ tasarımı ve optimizasyon
Logistic network design and optimization using hyperheuristic methods
VURAL EROL
Doktora
Türkçe
2017
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT BASKAK
PROF. DR. GÜLGÜN KAYAKUTLU