Geri Dön

Text-based machine learning methodologies for modelling drug-target interactions

Protein-ilaç etkileşimlerinin metin tabanlı makine öğrenmesi yöntemleri ile modellenmesi

  1. Tez No: 601046
  2. Yazar: HAKİME ÖZTÜRK
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 157

Özet

Özgün protein-ilaç etkileşimlerinin hesaplamalı metotlar ile saptanması önemli bir araştırma alanıdır. Çoğunlukla, bir ilaç yeni bir proteini hedeflemek için yeniden amaçlandırılabilir. Böylece makine öğrenmesi algoritmaları mevcut protein-ilaç etkileşimlerinden öğrenerek özgün etkileşimleri tahminleyebilir. Bu tezin temel amacı, protein ve ligandların (ilaç adaylarının) aralarındaki ilişkiyi, metinsel gösterimlerini kullanarak makine/derin öğrenme teknikleri ile modellemektir. Bu amaçla, yeni bir ligand gösterim yöntemi ve yeni bir protein gösterim yöntemi ile protein ve kimyasalların aralarındaki bağlanma kuvvetini (bağlanma ilgisini) belirlemek için iki yeni tahminleme sistemi tanıtılmıştır. Bu çalışmaların ortak teması proteinlerin (amino-asit dizileri) ve kimyasalların (SMILES dizileri) metinsel gösterimlerinin kullanılmasıdır. Metinsel gösterim, üç-boyutlu (3D) gösterime göre deneysel olarak daha kolay elde edilebilen bir bilgidir. Bu nedenle, üç-boyutlu bilgiye göre çok daha fazla molekül için metinsel gösterim bulunabilmektedir. Bu durum protein ve kimyasallar ile çalışırken önemli bir avantaj oluşturmaktadır. Ayrıca, metin bazlı gösterimlerin işlenmesi, iki-boyutlu (2D) ve 3D gösterimler ile karşılaştırıldığında hesaplamalı olarak daha ucuzdur. Biz çalışmalarımızda, tıpkı doğal diller gibi, biyo-kimyasal dizilerin kendi dillerinin olduğunu, ve bu dillerin işlenmesinin biyo-kimyasal moleküllerin karakteristikleri hakkında önemli bilgileri ortaya çıkarabileceği varsayımında bulunuyoruz. Protein aile gruplandırılması ve protein-ligand bağlanma ilgisinin tahminlenmesi gibi problemler üzerindeki çalışmalarımız literatürde en iyi performansa ulaşmıştır. Bu sonuçlar, protein ve kimyasalların metinsel gösterimlerinin farklı biyoenformatik ve kimenformatik problemlerine etkili çözümler tasarlanmasında kullanılabileceğini göstermiştir.

Özet (Çeviri)

The identification of novel interactions between proteins and drugs with computational methodologies constitutes a significant area of research. Most often, a drug can be re-purposed to target a novel protein which enables machine learning algorithms to learn from existing interactions to predict unknown interactions. The main goal of this thesis is to model the interactions between proteins and ligands (drug candidates) using their textual representations via machine/deep learning techniques. With that aim, we introduce a novel ligand representation approach and a novel protein representation approach as well as two prediction systems for identifying the strengths of the interactions between proteins and compounds (i.e., their binding affinities). The common theme of these studies is the use of textual representations of proteins (i.e., amino-acid sequences) and compounds (i.e., SMILES). A major advantage of text-based representations is that they are experimentally easier to obtain compared to the three-dimensional (3D) representations and therefore there are more protein/ligand text-based representations available than 3D representations. Furthermore, processing text-based representations is computationally less expensive compared to processing two-dimensional (2D) and 3D representations. We hypothesize that, much like natural languages, bio-chemical sequences have their own languages and processing these languages might reveal important insights about their characteristics. The application of Natural Language Processing (NLP) based approaches in tasks such as protein family/super-family clustering and protein-ligand binding affinity prediction achieved state-of-the-art performance. These results indicate that the textual forms of proteins and ligands can be used to formulate effective solutions to address different bioinformatics and cheminformatics problems.

Benzer Tezler

  1. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  2. Türkçe için sahte haber tespit modelinin oluşturulması

    A fake news detection model for Turkish language

    UĞUR MERTOĞLU

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURKAY GENÇ

    PROF. DR. HAYRİ SEVER

  3. Implementing language models enriched with text analysis: MIMIC-CXR case study

    Metin analiziyle zenginleştirilmiş dil modellerini uygulama: MIMIC-CXR vaka çalışması

    EGE ERBERK USLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMİNE SEZER

    DR. ÖĞR. ÜYESİ ZEKERİYA ANIL GÜVEN

  4. Character-level dilated deep neural networks for web attack detection

    Ağ yöresi saldırılarının belirlenmesi için karakter düzeyinde seyreltilmiş derin sinir ağları

    NAZANIN MOARREF

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET TAHİR SANDIKKAYA

  5. İş zekası ve duygu analizi: Sakarya merkezli sosyal medya verilerinin doğal dil işleme yaklaşımlarıyla incelenmesi

    Business intelligence and sentiment analysis: Examining Sakarya-centric social media data through natural language processing approaches

    FURKAN SARAÇOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL HAKKI CEDİMOĞLU