Geri Dön

Artificial learning-based analysis of molecular, clinical trials and patent data for improved drug development

İyileştirilmiş ilaç geliştirme için moleküler, klinik çalışmalar ve patent verilerinin yapay öğrenme temelli analizi

  1. Tez No: 758325
  2. Yazar: FULYA ÇIRAY
  3. Danışmanlar: DOÇ. DR. YEŞİM AYDIN SON, DOÇ. DR. TUNCA DOĞAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 167

Özet

İlaç geliştirme, özellikle gereken zaman ve maliyetler açısından oldukça masraflı bir süreçtir. Pek çok umut vadeden ilaç adayı molekül, yetersiz etkinlik veya sağlıkla ilgili beklenmeyen olumsuz etkilere yol açması nedeniyle klinik araştırmaların ikinci veya üçüncü fazları gibi aşamalarda geliştirme sürecinden elenmektedir. Son zamanlarda ilaç firmaları bu sürecin verimliliğini artırmak adına hesaplamalı yaklaşımları değerlendirmektedir. Bu tez çalışmasında, önceki ilaç keşfi ve geliştirme aşamalarından elde edilen özellikler ve makine öğrenmesi kullanılarak, ilaç adaylarına, belirtilen hastalıkların tedavisi için kullanım onayı verilip verilmemesinin otomatik ve hesaplamalı biçimde tahmin edilmesi araştırılmıştır. Çalışmanın başlangıcında, bir ön analiz olarak, ilaç adaylarında spesifik moleküler yapıların varlığının istenmeyen sonuçlara (onay alamamaya) yol açıp açmadığını gözlemlemek için ilaç alt yapılarını inceledik. Çalışmanın ana bölümünde, her bir ilaç endikasyon çiftini heterojen bir nümerik vektör olarak temsil etmek amacıyla ilaçların moleküler ve fizikokimyasal özelliklerini içeren bir dizi öznitelik ile, klinik araştırma ve patentlerle ilgili özellikleri kullandık. Veri toplama, manuel kürasyon ve imputasyon prosedürlerini takiben, nihai hale getirilmiş olan öznitelik vektörlerimiz, 14 farklı hastalık grubunun her biri için bir ilaç onay tahmin modeli eğitmek üzere rastgele orman (RF) sınıflandırıcıları tarafından işlendi. Çapraz doğrulamaya dayalı performans değerlendirmemizde aşağıda verilen aralıklarda değişen yüksek tahmin puanları elde ettik; doğruluk: 0,67-0,81, kesinlik: 0,77-0,82, duyarlılık: 0,77-0,96, F1-skoru: 0,77-0,88 ve MCC: 0,45-0,62. Ayrıca zamansal analizler yaparak yöntemimizin ileriye dönük olarak da başarılı sonuçlar üretebildiğini gösterdik. Bunun yanında, temel bir model ve literatürde yer alan yeni bir yönteme karşı gerçekleştirilen bir performans karşılaştırma analizi sonucunda yaklaşımımızın sağlamlığını ve veriyi genelleme kabiliyetini sergiledik. Ek olarak, ilaç onaylarını doğru bir şekilde tahmin etmek için önemli olarak nitelendirilen özellikleri belirledik ve tartıştık. Bir kullanım örneği çalışması kapsamında, yöntemimizin, önce yasal olarak onaylanan (faz IV), fakat sonrasında ciddi yan etkiler nedeniyle piyasadan çekilen ilaçları başarılı bir şekilde tahmin edebildiğini gösterdik. Son olarak, şu anda klinik araştırmalar faz I/II/III aşamalarında olan ilaç adaylarının onaylarını tahmin etmek amacıyla önceden eğitilmiş modellerimizi kullandık ve tahmin sonuçlarını sunduk. Çalışmamızın sonuçlarının ve sunduğumuz hesaplamalı aracın ilaç geliştirme sürecinin değerlendirilmesi ve iyileştirilmesi açısından literatüre katkıda bulunacağını umuyoruz. Bu çalışmanın tüm veri kümeleri, kaynak kodu, sonuçları ve önceden eğitilmiş modelleri https://github.com/HUBioDataLab/DrugApp adresinde açık kaynaklı olarak paylaşılmıştır.

Özet (Çeviri)

Drug development is a costly process, especially in terms of the required time and money. Many promising drug candidates are eliminated at late development stages, e.g., phase II or III of clinical trials, due to insufficient efficacy or unexpected adverse health related affects. Lately, pharmaceutical companies are evaluating computational approaches, to increase the efficiency of this process. In this thesis study, we investigated the computational prediction of the approval of drug candidate compounds by regulatory bodies (i.e., approved for an official use to treat the indicated disease) while the trial process is still continuing, using relevant information from previous discovery and development stages and machine learning. As a preliminary analysis, we examined drug substructures to observe whether the presence of specific molecular structures in drug candidates lead to undesirable outcomes (i.e., unapproved). In the main part of the study, we employed a wider and more heterogeneous set of features including molecular and physicochemical properties of drugs, together with clinical trial and patent related features, to represent each drug-indication pair as a heterogeneous numerical vector. Following data gathering, manual curation and imputation procedures, our finalized feature vectors are processed by random forest (RF) classifiers to train independent drug approval prediction models for 14 different disease groups. We achieved high prediction scores in our cross validation-based performance evaluation, varying in ranges of; accuracy: 0.67-0.81, precision: 0.77-0.82, recall: 0.77-0.96, F1-score: 0.77-0.88 and MCC: 0.45-0.62. Furthermore, by conducting a temporal analysis, we showed that our method is also capable of producing successful results in a prospective manner. We also carried out a performance comparison against a baseline model and a state-of-the-art method from literature, the results of which indicated both robustness and the generalization capability of our approach. Additionally, we identified the most important features for accurately predicting drug approvals, which heavily includes clinical trial and patent related features. Within a use-case study, we showed that our method can successfully predict regulatorily approved (phase IV) drugs that are later withdrawn from the market due to severe side effects. Finally, we used pre-trained models to predict the approval of drug candidates that are currently in clinical trial phases I/II/III and presented prediction results. We hope that the results of our study and the computational tool we presented will contribute to the literature in terms of evaluating and improving the drug development process. All of the datasets, source code, results and pre-trained models of this study are freely available at https://github.com/HUBioDataLab/DrugApp.

Benzer Tezler

  1. Kişiselleştirilmiş sağkalım tahmini için geniş çaplı kanser verisinin yapay öğrenme ve çoklu-omik bazlı analizi

    Artificial learning and multi-omics based analysis of large-scale cancer data for personalized survival predictions

    AYŞE NUR ÇORUH

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Biyoenformatik Bilim Dalı

    DOÇ. DR. TUNCA DOĞAN

  2. Artificial intelligence assisted drop pattern analysis and RNAseq profiling for early diagnosis and follow-up of bladder cancer

    Mesane kanserinin erken tanı ve takibinde yapay zeka destekli damla motif analizi ve RNAseq profilleme

    RAMİZ DEMİR

    Doktora

    İngilizce

    İngilizce

    2023

    Moleküler TıpKoç Üniversitesi

    Hücresel ve Moleküler Tıp Ana Bilim Dalı

    PROF. DR. DEVRİM GÖZÜAÇIK

  3. Açıklanabilir yapay zekâ yöntemlerine dayalı bilgisayar destekli tahmin modelinin geliştirilmesi: metabolomik teknolojileri üzerine uygulaması

    Development of a computer-aided predictive model based on explainable artificial intelligence methods: application on metabolomics technologies

    FATMA HİLAL YAĞIN

    Doktora

    Türkçe

    Türkçe

    2024

    Biyoistatistikİnönü Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. HARİKA GÖZDE GÖZÜKARA BAĞ

    DR. ÖĞR. ÜYESİ DİNÇER GÖKSÜLÜK

  4. Kemik iliği biyopsilerinde megakaryositlerin yapay zeka ile segmentasyonu

    Artificial intelligence-based segmentation of megakaryocytes in bone marrow biopsies

    NERMİN ARAS

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    PatolojiAnkara Üniversitesi

    Tıbbi Patoloji Ana Bilim Dalı

    PROF. DR. GÜLŞAH KAYGUSUZ

  5. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK