Geri Dön

Accelerating molecular docking using machine learning methods

Kenetleme hesaplarının makine öğrenme metotları ile hızlandırılması

  1. Tez No: 857941
  2. Yazar: ABDULSALAM YAZID BANDE
  3. Danışmanlar: Assist. Prof. Dr. SEFER BADAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 79

Özet

İlaç keşfi, yalnızca zaman alıcı değil, aynı zamanda oldukça pahalı ve milyarlarca dolar araştırma ve geliştirmeye yatırım yapılan çok zorlu bir süreçtir. Sadece süreç pahalı olmakla kalmaz, aynı zamanda nihai ürünün kalitesi ve güvenliğinin de ele alınması gerekir. Bilgisayar Destekli İlaç Tasarımı (CADD), yeni bileşikler tasarlamak ve geliştirmek için hesaplama yöntemlerini kullanan tekniklerdir. CADD'nin bir örneği sanal taramadır (VS). VS, biyoaktif bir molekül arayışını hızlandıran ve deneylerle ilişkili maliyetleri azaltan ilaç keşfinde köklü yaklaşımlardan biridir. Esasen, belirli bir hedefe bağlanabilen molekülleri bulmak amacıyla küçük molekül kütüphanelerini aramak için kullanılan bir tekniktir. Hedef, protein ve nükleik asitler olabilir. İki tür VS vardır: bunlar yapı tabanlı sanal tarama (SBVS) ve ligand tabanlı sanal taramadır (LBVS). SBVS, hedef proteinin 3D yapısı bilindiğinde kullanılır, bu durumda ligandın bir ilaç hedefine yönelimini bulmak için yerleştirme (docking) kullanılır. Yerleştirme hesaplamaları, yaygın olarak kullanılan ve oldukça beğenilen yapı temelli ilaç keşif yöntemlerinden biridir. Ayrıca, farklı ligandlar reseptörlere kenetlendiğinde farklı bağlanma afinitelerine sahip olabilir, bu nedenle VS işlemi sırasında ligandları sıralamada puanlama işlevleri kullanılır. Puanlama işlevleri, moleküllerin farklı faktörlerini hesaba katar ve bilgi tabanlı, kuvvet alanı tabanlı ve ampirik tabanlı olarak sınıflandırılır. Ayrıca, bir reseptör üzerine kenetlenecek bir ligand için, moleküllerin çok sayıda konformasyonel serbestlik derecesi olabilir ve hesaplama katlanarak artabilir. Bu nedenle, proteinin aktif bölgesindeki ligandların konformasyonlarını seçmek için örnekleme yöntemleri uygulanır. Örneklemede kullanılan çeşitli algoritmalar vardır ve hepsinin farklı özellikleri vardır. Genetik algoritmalar (GA) ve Monte Carlo (MC), stokastik aramaya dayalı bazı algoritmalardan bazılarıdır.. Yerleştirmede hem ligandın hem de reseptörün esnekliği göz önünde bulundurulur. Genel olarak, iki tür yerleştirme vardır ve bunlar esnek reseptör-esnek ligand ve sert reseptör-esnek liganddır. 3D yapı bilinmediğinde, LBVS kullanılır ve bir hedefe bağlanan yapıları tanımlamak için benzerlik arama, farmakofor arama gibi farklı arama algoritmaları uygulanabilir. Kantitatif Yapı-Aktivite İlişkileri (QSAR) modellemesi de LBVS'de kullanılan bir hesaplama yöntemidir ve bileşiklerin yapısal özellikleri arasındaki ilişkilerin bulunmasında kullanılır. Ayrıca, VS, kimyasal uzayın arama alanını daraltmaya yardımcı olur ve deneysel testler için daha az ve daha olası aday bileşiklerin seçilmesine izin verir. Küçük moleküllerin kimyasal yapıları için veri tabanları hızla büyümektedir.. Örneğin, ZINC veritabanı satın almaya hazır 230 milyon molekül içerir. Bununla birlikte, milyonlarca molekülü yerleştirmek birçok zorlukla birlikte gelir; örneğin, iyi bir bilgi işlem altyapısı ve HPC ortamında uzmanlığa ihtiyaç vardır. Bu çalışmanın amacı, açık docking hesaplamaları olmadan docking puanlarını tahmin ederek docking hesaplamalarını hızlandırmaktır. Örneğin, bir hedefe 4 milyon molekül yerleştirmek yerine, dört milyon molekülün içerisinden seçilen yalnızca yedi bin molekül yerleştirilebilir ve yerleştirme sonuçları, kalan moleküllerin yerleştirme sonuçlarını tahmin etmede kullanılan bir makine modelini eğitmek için kullanılabilir. Ve bu makine öğrenmesi yaklaşımı ile 4 milyon molekülün taranması önemli ölçüde daha kısa sürede yapılabilir. Bu çalışma, uzun kısa süreli bellekli sinir ağı modeli (LSTM) olan derin sinir ağı tabanlı bir model içeren çoklu makine öğrenme modellerinden yararlanmaktadır. Orijinal olarak biyolojik beyinden esinlenilen sinir ağları modelleri bir dizi katman içerir ve her katmanda matematiksel bir işlem yapılır ve sonuç bir sonraki katmana beslenir. Son katman daha sonra tek bir skaler çıktı verir. Bu çalışma durumunda, daha sonra nihai çıktı bir yerleştirme puanıdır. Ayrıca, her katman orijinal girdiden belirli bir bilgiyi çıkarır. Bu çalışmada, sinir ağı (LSTM), modelin girdinin daha önemli kısmına daha fazla odaklanmasına yardımcı olan bir dikkat mekanizması ile birleştirilmiştir. Sinir ağı modeli, Pytorch olan popüler makine öğrenimi çerçevesi kullanılarak uygulanır. Bu araştırmada kullanılan diğer modeller, XGBoost python kütüphanesinden uygulanan XGBoost, karar ağacı regresörü ve scikit-learn python kütüphanesinden olan stokastik gradyan iniş regresörüdür. Araştırmamızda grubumuzda üretilen iki veri seti üzerinde çalıştık. Birinci veri setinde 3.5 milyon molekülden oluşan bir ligand kütüphanesi üç farklı hedefe kenetlendi, ikinci veri setinde 400.000 molekül dört hedefe kenetlendi. Tüm veri kümelerinden gelen ligandlar, Basitleştirilmiş moleküler girişli satır giriş sisteminde (SMILES) temsil edilir ve yerleştirme puanlarının birimi kcal/mol'dür. SMILES, sistemde kullanılan üç tanımlayıcının biri veya bir kombinasyonu kullanılarak sayısal bir forma dönüştürülür. Moleküler ACCess Sistemi (MACCS) kullanılan tanımlayıcılardan biridir. Bu tanımlayıcı 167 bitlik bir sıfır vektörü ile başlar ve her konum bir koşulu sağlıyorsa bir ile indekslenir, örneğin, molekül nitrojen atom içeriyorsa bu özelliğe karşılık gelen pozisyona bir yazılır.. Kullanılan ikinci tanımlayıcı One Hot Encoding'dir, ayrıca bir sıfır vektörü ile başlar ve herhangi bir pozisyonda bir koşul karşılanıyorsa bir ile indekslenir. Kullanılan son tanımlayıcı, Genişletilmiş Bağlantı Dairesel Parmak İzleridir (ECFP'ler). Bu özel tanımlayıcı aynı zamanda SMILES'i birler ve sıfırlar olarak kodlar, ancak diğerlerinden farklı olarak, kodlama işlemi için moleküllerin daha fazla kimyasal bilgisini kullanır. Ayrıca, birleştirilmiş tanımlayıcılar da denenmiştir ve en iyi sonuçlara yol açan bu teknik olmuştur. Genel olarak, modelleri eğittikten sonra, modellerin yerleştirme puanı tahmin yetenekleri hakkında daha fazla bilgi edinmek için farklı metrikler kullanıldı. Bazı metrikler arasında Ortalama Kare Hatası (MSE), Ortalama Mutlak Hata (MAE), Belirleme Katsayısı (R2) ve Spearman sıralama sırası korelasyonu (Spearman korelasyonu) bulunur. Elde edilmesi gereken şeylerden biri, modelleri sadece bir avuç molekül kullanarak eğitmek, yani milyonlarca molekülün yalnızca %1'inden azını kullanarak eğitmekti. Böylece, az sayıda ligandı kenetleyerek modellerimizi eğittik ve birkaç milyon molekülün kenetlenme puanlarını tahmin ettik. Örneğin, ilk gruptaki hedeflerden birinde, sadece 7000 molekülü eğiterek, R2 0.84 olan 3.5 milyon molekül için kenetlenme puanlarını tahmin edebildik. Başka bir durumda, bir LSTM kullanarak hedef ikide 0.90'lık şaşırtıcı bir R2 elde ettik. Genel olarak, sonuçlar MSE ve MAE metriği açısından da iyiydi. Örneğin, farklı modellerin ve farklı eğitim seti boyutlarının tüm farklı durumlarında, ortalama MSE 0.30'un altında ve MAE 0.45'in altındaydı. Ayrıca, LSTM kullanılarak 7000 molekül kullanılarak yapılan eğitimin tüm hedeflerde R2'nin 0.78'den az olması ve diğer modellerin sonuçları daha da kötü olması nedeniyle ikinci veri kümesinin sonuçları bizim için şaşırtıcıydı. Sonuçların farkını açıklamak için veri seti arasında derin bir analiz yapılmıştır. Ayrıca, tüm modeller aşırı uyum sorunu yaşamadan eğitildi, çoğu durumda eğitim aşaması sonuçları test aşamasındakilerle aynıydı. Örneğin, birinci hedefte,7000 molekül için LSTM üzerinde eğitim ve test, her iki durumda da 0,83'lük bir R2 elde edildi. Ayrıca, sistem kullanım kolaylığı göz önünde bulundurularak tasarlanmıştır. Kullanıcının sağlaması gereken tek şey, SMILES ve belirli bir hedefin ilgili yerleştirme puanlarını içeren bir csv dosyasıdır, ardından sistem, kullanıcının gelecekteki SMILES tahminleri için kullanabileceği bir model çıkarır. Modellerin eğitim süreleri açısından, LSTM modeli dışında, modellerin çoğu eğitimi, XGBoost ve scikit-learn kitaplıklarının optimizasyonları nedeniyle bir dakikadan daha kısa sürede gerçekleşti. 7000 molekül boyutunda LSTM eğitimi 2 dakikadan kısa bir sürede ve 3.5 milyon moleküle kadar test yaklaşık bir saatte gerçekleştirildi. Sonuç olarak, büyük kimyasal kitaplıkların yerleştirme hesapları, bazı araştırmacıların sahip olmadığı mütevazı bir hesaplama gücü ve kodlama konusunda uzmanlık gerektirir. Bu çalışmada, önerdiğimiz metodoloji, çok büyük kütüphanelerin kişisel bir bilgisayarda bile kolayca taranmasını hızlandırmak için kullanılabilir. Milyonlarca molekülün sadece çok küçük bir yüzdesini kullanarak makine öğrenmesi modellerinde eğiterek, milyonlarca molekülün kenetleme hesaplarını gerçekleştirmeden kenetleme sonuçlarını tahmin edebildik. Ayrıca bu çalışmada, moleküler tanımlayıcıların önemi de gösterildi ve sinir ağları gibi güçlü modeller bile tanımlayıcılardan etkilendiği görülmüştür.

Özet (Çeviri)

Drug discovery is a very challenging process that is not only time-consuming but also highly expensive and billions of dollars are invested in its research and development. Not only is the process expensive, the quality and safety of the final product also needs to be addressed. Computer Aided Drug Design (CADD) refers to computational techniques that are used to design and develop new compounds. An example of CADD is virtual screening (VS). VS is one of the well-established approaches in drug discovery that speeds up the search for a bioactive molecule and reduces costs associated with experiments. It is essentially a technique to search libraries of small molecules with the goal of finding the ones that bind onto a particular target biomolecule. The target can be a protein, nucleic acid etc. There are two types of VS: structure-based virtual screening (SBVS) and ligand-based virtual screening (LBVS). SBVS is used when the 3D structure of the target protein is known, in this case, usually docking calculation is used to find the complex structure of ligand with the drug target. Docking calculations are one of the commonly used and highly appreciated structure-based drug discovery methods. Moreover, different ligands can have different binding affinities when docked on receptors, so scoring functions are used in ranking the ligands during the VS process. The scoring functions take into account different factors of molecules and are categorised into knowledge-based, force-field-based and empirical based. Different scoring functions can be used in software tools like AutoDock-Vina. Moreover, for a ligand to be docked onto a receptor, there can be a high number of conformational degrees of freedom of both the molecules and computation can increase exponentially. So, sampling methods are applied to select conformations of ligands in the active site of the protein. There are a variety of algorithms used in sampling and they all have different characteristics. Genetic algorithms (GA) and Monte Carlo (MC) are some of some algorithms based on stochastic search and the different algorithms can also be accessed from software tools such as AutoDock-Vina. In docking, the flexibility of both ligand and the receptor can be taken into account. In general, there are two forms of docking, and they are flexible receptor-flexible ligand and rigid receptor-flexible ligand. When the 3D structure is not known, LBVS is used and different searching algorithms such as similarity search, pharmacophore searching can be applied to identify structures that bind onto a target. Quantitative Structure-Activity Relationships (QSAR) modelling is also a computational method that is used in LBVS and it is used in finding relationships between structural properties and bioactivities of compounds. Furthermore, VS helps to narrow down the search space of chemical space and allows the selecting fewer and more probable candidate compounds for experimental testing. Databases for chemical structures of small molecules have been growing rapidly. For example, the ZINC database contains 230 million molecules ready to purchase. However, docking millions of molecules comes with many challenges, for example a good computing infrastructure and expertise in the HPC environment are needed. The aim of this work is to accelerate molecular docking calculations by predicting docking scores without explicitly performing docking calculations. For example, instead of docking 4 million molecules onto a target, only 7k of the 4 million molecules could be docked and the docking results can be used to train a machine learning model that can be used to predict the docking results of the remaining molecules. This approach saves a significant amount of computation resources and time. This work makes use of multiple machine learning models that includes a deep neural network based model, which is a long short term memory neural network model (LSTM). Neural networks models, which were originally inspired by the biological brain, contain a series of layers and in each layer a mathematical operation is performed, and the result is fed into a subsequent layer. A final layer then outputs a single scalar. In the case of this work, the final output is a docking score. Furthermore, each layer extracts a certain information from the original input. In this work, the neural network (LSTM) is coupled with an attention mechanism which helps the model focus more on the more important part of the input. The neural network model is implemented using the popular machine learning framework which is Pytorch. Other models used in this research are XGBoost which is implemented from the XGBoost python library, decision tree regressor and stochastic gradient descent regressor from the scikit-learn python library. We worked on two datasets that were produced in our group. In one dataset a ligand library of 3.5 million molecules were docked into three different targets, in the second dataset 400.000 molecules were docked into four targets. The ligands from all the datasets are represented in Simplified molecular-input line-entry system (SMILES) and the unit of the docking scores is kcal/mol. The SMILES are converted to a numeric form using one or a concatenation of three descriptors used in the system. Molecular ACCess System (MACCS) is one of the descriptors used. This descriptor starts with a 167-bit vector of zeros and each position is indexed with one if it satisfies a condition, for example, the condition can be if the molecule contains a nitrogen atom. The second descriptor used is One Hot Encoding, it also starts with a vector of zeros and then indexed with one if a condition is satisfied at any position. The final descriptor used is Extended Connectivity Circular Fingerprints (ECFPs). This particular descriptor also encodes SMILES into bits of ones and zeros, but unlike the other ones, it uses more chemical information of molecules for the encoding process. Furthermore, concatenated descriptors have also been experimented with and it was this technique that led to the best results. We achieved an astonishing R2 of 0.90 in target two using an LSTM. In general, the results were also good in terms of the MSE and MAE metric. For example, in all the different cases of different models and different training set sizes, the average MSE was below 0.30 and the MAE was below 0.45. Furthermore, the results of the second dataset were surprising to us as training using 7k using LSTM resulted in R2 less than 0.78 in all the targets and the results of the other models were even worse. A deep analysis between the dataset was conducted in order to explain the difference of results. Furthermore, we did not encounter overfitting issues in training, in many cases results for the models training phase were the same as the ones in the testing phase. For instance, in target one, training and testing on LSTM for 7k achieved an R2 of 0.83 for both cases. Moreover, the system is designed with ease of use in mind. All the user needs to provide is a csv file containing smiles and their respective docking scores of a specific target, the system then outputs a model that the user can use for future smiles predictions. In terms of the training times of the models, apart from the LSTM model, most of the models training was in less than a minute as this was due to optimizations of the XGBoost and the scikit-learn libraries. Training on LSTM using a size of 7k was in less than 2 minutes and testing up to 3.5 molecules was accomplished in approximately an hour. In conclusion, docking of huge chemical libraries requires good computational power and coding expertise that some researchers lack. In this work, the methodology we proposed can be used to accelerate screening of very large libraries easily even on a personal computer. Using just a small percentage of millions of molecules, some of the models on some targets achieved good results. The importance of molecular descriptors was also demonstrated and even powerful models like neural networks are impacted by the descriptors.

Benzer Tezler

  1. Ai for drug discovery LSTM-driven drug design using selfies for target-focused de novo generation of HIV-1 protease inhibitor candidates in the treatment of AIDS

    Yapay zeka tabanlı LSTM destekli ilaç tasarımı: AIDS tedavisinde selfıes kullanarak HIV-1 proteaz odaklı inhibitör adaylarının tasarlanması

    M.TALEB ALBRIJAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Biyomühendislikİstanbul Medipol Üniversitesi

    Biyomedikal Mühendisliği ve Biyoenformatik Ana Bilim Dalı

    PROF. DR. REDA ALHAJJ

  2. Yeni HSP90 inhibitörlerinin tespiti için in siliko ilaç yeniden kullanım yaklaşımı ve in vitro değerlendirme

    In silico drug repurposing approach and in vitro evaluation for determination of novel HSP90 inhibitors

    TUĞBA TAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyokimyaAtatürk Üniversitesi

    Kimya Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DERYANUR KILIÇ

  3. Tavuk etlerinden izole edilen E.coli ve K.pneumoniae suşlarının antibiyotik direnç genlerinin moleküler karakterizasyonu

    Molecular characterization of antibiotic resistance genes of E.coli and K.pneumoniae strains isolated from chicken meat

    SATUK BUĞRA HAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BiyoteknolojiÇukurova Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. TÜLİN GÜVEN GÖKMEN

  4. Accelerating stencil computation in multi-core architecture

    Çok çekirdek mimarlığında hızlandırılması stencıl hesaplama

    AMAR RAEED KHORSHİD ALHİLALİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. EMRE SERMUTLU

  5. Determining the effect of roughness and crystallinity on protein adsorption for polyurethane films

    Poliüretan filmlerde yüzey pürüzlülüğü ve kristalinitenin protein adsorpsiyonuna etkilerinin incelenmesi

    SELİN SOFİ KÜRKCÜOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Polimer Bilim ve Teknolojisiİstanbul Teknik Üniversitesi

    Polimer Bilim ve Teknolojisi Ana Bilim Dalı

    PROF. DR. FATMA SENİHA GÜNER

    YRD. DOÇ. DR. AYŞE ÖZGE KÜRKÇÜOĞLU LEVİTAS