Geri Dön

Large language models for biomedical relation extraction and explanation

Biyomedikal metinlerde ilişki çıkarımı ve açıklanması için büyük dil modelleri

  1. Tez No: 859487
  2. Yazar: NUR BENGİSU ÇAM
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Biyomedikal literatürün hızlı gelişmesi nedeniyle, doğal dil işleme ve metin madenciliği teknikleri kullanılarak biyomedikal metinlerden yararlı bilgilerin çıkarılması büyük talep görmektedir. En önemli metin madenciliği görevlerinden biri, varlıklar arasındaki ilişkilerin tanımlanmasını içeren ilişki çıkarmadır. Büyük Dil Modellerinin (BDM) çeşitli doğal dil işleme görevlerindeki başarısından esinlenerek, biyomedikal metinlerden protein-protein etkileşimlerini çıkarmak ve bu etkileşimleri açıklamak için BDM tabanlı bir yaklaşım kullanılmasını öneriyoruz. İlişki çıkarımı için BioBERT, SciBERT ve PubMedBERT maskeli dil modellerine beş farklı kıyaslama veri kümesinde ince ayar yaptık ve bunların belirli bir metinde bahsedilen protein-protein etkileşimlerini etkili bir şekilde tanımlayabildiklerini gösterdik. Daha sonra, nedensel BDM'leri kullanarak çıkarılan protein-protein ilişkilerini daha ayrıntılı analiz etmek için yeni bir yaklaşım geliştirdik. Bir protein çifti arasındaki etkileşimi ortaya çıkaran metindeki anahtar kelimeleri belirlemek için, Llama-2 sohbet modellerine bağlam içi öğrenme ve parametre verimli talimat ince ayarı gibi farklı öğrenme stratejileri uyguladık. Sonuçlarımız, parametre açısından verimli ince ayarın, yeni bir eğitim alanında bile model performansında artış sağladığını gösteriyor. Daha küçük ince ayarlı modeller, çok daha büyük modellerin sıfır atış performansından daha iyi performans gösterdi. Çalışmamız, ilişki çıkarımı için maskeli ayarla ilişki çıkarımı ve ilişki açıklaması için nedensel BDM'den oluşan sistemin, gerçek dünya senaryolarında protein-protein ilişkilerinin analizinde kullanmak için etkili bir strateji olabileceğini öne sürüyor.

Özet (Çeviri)

Due to the rapid growth of biomedical literature, the extraction of useful information from biomedical texts using natural language processing (NLP) and text mining techniques is in high demand. One of the most important text mining tasks is relation extraction (RE), which involves identifying relationships between entities. Inspired by the success of Large Language Models (LLMs) in various NLP tasks, we propose an LLM-based approach to extract and explain protein-protein interactions (PPIs) from biomedical texts. For relation extraction, we fine-tuned the masked language models BioBERT, SciBERT and PubMedBERT on five PPI benchmark datasets and showed that they can effectively identify PPIs mentioned in a given text. Next, we developed a novel approach to further analyze the extracted PPIs using causal LLMs. We applied different learning strategies, namely in-context learning and parameter-efficient instruction fine-tuning for the Llama-2 chat models, to identify keywords in the text that reveal an interaction between a protein pair. Our results show that parameter-efficient fine-tuning leads to a performance gain even when the domain is new. The smaller fine-tuned models outperformed the zero-shot performance of much larger models. Our study suggests that a pipeline consisting of a masked LLM for relation extraction and a causal LLM for relation explanation can be an effective strategy for building a PPI analyser in real-world scenarios.

Benzer Tezler

  1. Relation prediction over biomedical knowledge bases for drugrepositioning

    Başlık çevirisi yok

    MEHMET GÖKHAN BAKAL

    Doktora

    İngilizce

    İngilizce

    2019

    BiyomühendislikUniversity of Kentucky

    PROF. DR. DANIŞMAN YOK

  2. Generating explanations for complex biomedical queries

    Karmaşık biyomedikal sorgular için açıklama üretme

    UMUT ÖZTOK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ESRA ERDEM

  3. Polikistik Ovaryum Sendromu tanısı için yapay zeka destekli klinik araç tasarımı

    Artificial intelligence supported clinical tool design for the diagnosis of Polycystic Ovary Syndrome

    JACKLYN GÜNCE KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SÜLEYMAN BİLGİN

  4. Türkçe klinik metinlerin derin öğrenme yaklaşımları ile sınıflandırılması

    Classification of Turkish clinical notes using deep learning techniques

    HAZAL TÜRKMEN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  5. Multimodal medical visual question answering: Knowledge spaces and semantic segmentation for improved and explainable AI

    Çok-kipli tıbbi görsel soru cevaplama: Bilgi uzayları ve anlamsal bölütleme ile gelişmiş ve açıklanabilir yapay zekâ

    ZİYA ATA YAZICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL