Geri Dön

Relation extraction for chemical and protein interactions from biomedical documents

Kimyasallar ve proteinler arasındaki etkileşimler için biyomedikal dokümanlardan ilişki çıkarma

  1. Tez No: 692208
  2. Yazar: HİLAL DÖNMEZ
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 178

Özet

Kimyasallar ve proteinler arasındaki etkileşimlerin (CPI) bilimsel topluluklar ile paylaşılması, hastalık mekanizmalarının anlaşılmasında, ilaç keşfindeki ve ilaçların yeniden kullanılmasındaki çalışmaların kolaylaştırılmasında önemli rol oynar. CPI hakkında önemli miktarda bilgi, düzenli yapısı olmayan dokümanlarda yayınlanmaktadır. Bu tezin amacı cümlelerde verilen bilgilerden kimyasallar ve proteinler arasındaki ilişkileri çıkarmaktır. Bu amaç için, biyomedikal dokümanlardan ikili ilişki çıkarma ve çok sınıflı ilişki çıkarma olmak üzere iki göreve odanlanmaktayız. İlk görevin amacı, bir cümlenin bir çift biyokimyasal arasındaki ilişkiyi ifade edip etmediğinin belirlenmesidir. İkinci ise görev bir çift biyokimyasal arasındaki ilişkinin tipini de belirlemeyi amaçlayarak ilk görevi genişletir. İki görevde de, BioBERT ve SciBERT mimarilerinden yararlanarak Dönüstürücü tabanlı modeller geliştiririz. Ek olarak, tüm cümle tabanlı ve bağlılık ağacı tabanlı temsillerinden oluşan farklı girdi temsilleri yaklaşımlarımızın etkisini araştırıyoruz. Bizim sonuçlarımız, ChemProt test veri seti üzerinde ikili ilişki çıkarma görevinde %77.8 F1 ölçütü ve çok sınıflı ilişki çıkarma görevinde %76.1 mikro-ortalamalı F1 ölçütü elde eden tüm cümle girdi temsilimiz ile eğittiğimiz BioBERT tabanlı modelimizin her iki görevde de en iyi performansı elde ettiğini göstermektedir. İlginç bir şekilde, önemli ölçüde daha kısa olan bağlılık ağacı tabanlı girdi temsilleri, tüm cümle girdi temsiline yakın F1 ölçütü elde eder. Son olarak, KOVID-19 ile ilgili bilimsel yayınlardan protein-kimyasal etkileşimleri çıkaran bir arama motoru olan Vapur'u tanıtıyoruz. Vapur, ilişki çıkarma modellerimizin gerçek yaşamdaki biyomedikal uygulamalarda etkin bir şekilde kullanılabildiğini göstermektedir.

Özet (Çeviri)

The sharing of chemical-protein interactions (CPI) with the scientific communities plays a crucial role in understanding the mechanisms of diseases, as well as in facilitating drug discovery and drug repurposing studies. Significant amount of knowledge on CPI is published in unstructured documents. The goal of this thesis is to extract relations between chemicals and proteins from information provided in sentences. For this purpose, we focus on two tasks: (i) binary relation extraction and (ii) multi-class relation extraction from biomedical documents. The aim of the first task is to identify whether a sentence states a relation between a pair of biochemicals or not. On the other hand, the second task extends the first one by also aiming at identifying the type of the relation between the pair of biochemicals. For both tasks, we develop transformer-based models by utilising the BioBERT and SciBERT architectures. Furthermore, we investigate the effectiveness of different input representation approaches such as sentence and dependency tree-based representations. Our results demonstrate that BioBERT based model with whole sentence input representation achieves the best performance for both tasks on the benchmark ChemProt test data set with an F1-score of 77.8% for binary relation extraction and micro-averaged F1-score of 76.1% for multiclass relation extraction. Interestingly, the significantly shorter dependency tree-based input representations achieve close F1-scores to whole sentence input representation. Finally, we introduce Vapur, which is a search engine for protein-chemical interactions extracted from COVID-19 related scientific publications. Vapur shows that our relation extraction models can be effectively used in real-world biomedical applications.

Benzer Tezler

  1. Investigation of the general properties of some polyelectrolyte complexes

    Bazı polielektrolit komplekslerin genel özelliklerinin incelenmesi

    NERMİN ACAR VURAL

    Doktora

    İngilizce

    İngilizce

    2001

    Kimyaİstanbul Teknik Üniversitesi

    PROF. DR. TÜLAY TULUN

  2. Ultrasound assisted extraction of lipids and antioxidants from wheat germ

    Buğday rüşeyminden lipid ve antioksidanların ultrason destekli özütlenmesi

    MEHMET MELİKOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Kimya MühendisliğiOrta Doğu Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. SUZAN KINCAL

  3. An ontology based representation of semantic annotations for biomedical relations extracted from scientific documents

    Bilimsel belgelerden çıkarılmış biyomedikal ilişkiler için anlamsal açıklamaların ontoloji temelli temsili

    BERKAY ATAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. SUSAN MICHELE ÜSKÜDARLI

  4. Characterization and recovery of rare earth elements from iron mining sludge

    Demir madenciliği çamurundan nadir toprak elemanlarının karakterizasyonu ve geri kazanımı

    AZMAT FATIMA SIDDIQUI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    Prof. Dr. İSMAİL KOYUNCU

    Assist. Prof. Dr. BÖRTE KÖSE MUTLU

  5. Development of selective iron-based fischer-tropsch catalysts to light olefins

    Hafif olefinler için seçici demir bazli fischer-tropsch katalizörlerinin geliştirilmesi

    YASEMİN FATİH AGHDAEI

    Doktora

    İngilizce

    İngilizce

    2023

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. HÜSNÜ ATAKÜL

    DOÇ. DR. ALPER SARIOĞLAN