Large language models for biomedical relation extraction and explanation

Biyomedikal metinlerde ilişki çıkarımı ve açıklanması için büyük dil modelleri

PDF İndir

Tez No: 859487
Yazar: NUR BENGİSU ÇAM
Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 83

Özet

Biyomedikal literatürün hızlı gelişmesi nedeniyle, doğal dil işleme ve metin madenciliği teknikleri kullanılarak biyomedikal metinlerden yararlı bilgilerin çıkarılması büyük talep görmektedir. En önemli metin madenciliği görevlerinden biri, varlıklar arasındaki ilişkilerin tanımlanmasını içeren ilişki çıkarmadır. Büyük Dil Modellerinin (BDM) çeşitli doğal dil işleme görevlerindeki başarısından esinlenerek, biyomedikal metinlerden protein-protein etkileşimlerini çıkarmak ve bu etkileşimleri açıklamak için BDM tabanlı bir yaklaşım kullanılmasını öneriyoruz. İlişki çıkarımı için BioBERT, SciBERT ve PubMedBERT maskeli dil modellerine beş farklı kıyaslama veri kümesinde ince ayar yaptık ve bunların belirli bir metinde bahsedilen protein-protein etkileşimlerini etkili bir şekilde tanımlayabildiklerini gösterdik. Daha sonra, nedensel BDM'leri kullanarak çıkarılan protein-protein ilişkilerini daha ayrıntılı analiz etmek için yeni bir yaklaşım geliştirdik. Bir protein çifti arasındaki etkileşimi ortaya çıkaran metindeki anahtar kelimeleri belirlemek için, Llama-2 sohbet modellerine bağlam içi öğrenme ve parametre verimli talimat ince ayarı gibi farklı öğrenme stratejileri uyguladık. Sonuçlarımız, parametre açısından verimli ince ayarın, yeni bir eğitim alanında bile model performansında artış sağladığını gösteriyor. Daha küçük ince ayarlı modeller, çok daha büyük modellerin sıfır atış performansından daha iyi performans gösterdi. Çalışmamız, ilişki çıkarımı için maskeli ayarla ilişki çıkarımı ve ilişki açıklaması için nedensel BDM'den oluşan sistemin, gerçek dünya senaryolarında protein-protein ilişkilerinin analizinde kullanmak için etkili bir strateji olabileceğini öne sürüyor.

Özet (Çeviri)

Due to the rapid growth of biomedical literature, the extraction of useful information from biomedical texts using natural language processing (NLP) and text mining techniques is in high demand. One of the most important text mining tasks is relation extraction (RE), which involves identifying relationships between entities. Inspired by the success of Large Language Models (LLMs) in various NLP tasks, we propose an LLM-based approach to extract and explain protein-protein interactions (PPIs) from biomedical texts. For relation extraction, we fine-tuned the masked language models BioBERT, SciBERT and PubMedBERT on five PPI benchmark datasets and showed that they can effectively identify PPIs mentioned in a given text. Next, we developed a novel approach to further analyze the extracted PPIs using causal LLMs. We applied different learning strategies, namely in-context learning and parameter-efficient instruction fine-tuning for the Llama-2 chat models, to identify keywords in the text that reveal an interaction between a protein pair. Our results show that parameter-efficient fine-tuning leads to a performance gain even when the domain is new. The smaller fine-tuned models outperformed the zero-shot performance of much larger models. Our study suggests that a pipeline consisting of a masked LLM for relation extraction and a causal LLM for relation explanation can be an effective strategy for building a PPI analyser in real-world scenarios.

Benzer Tezler

Tez No
626144
Relation prediction over biomedical knowledge bases for drugrepositioning
Başlık çevirisi yok
MEHMET GÖKHAN BAKAL
Doktora
İngilizce
2019
Biyomühendislik University of Kentucky
PROF. DR. DANIŞMAN YOK
Tez No
614755
Generating explanations for complex biomedical queries
Karmaşık biyomedikal sorgular için açıklama üretme
UMUT ÖZTOK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ESRA ERDEM
Tez No
961077
Polikistik Ovaryum Sendromu tanısı için yapay zeka destekli klinik araç tasarımı
Artificial intelligence supported clinical tool design for the diagnosis of Polycystic Ovary Syndrome
JACKLYN GÜNCE KAYA
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Akdeniz Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN BİLGİN
Tez No
829295
Türkçe klinik metinlerin derin öğrenme yaklaşımları ile sınıflandırılması
Classification of Turkish clinical notes using deep learning techniques
HAZAL TÜRKMEN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
Tez No
946030
Multimodal medical visual question answering: Knowledge spaces and semantic segmentation for improved and explainable AI
Çok-kipli tıbbi görsel soru cevaplama: Bilgi uzayları ve anlamsal bölütleme ile gelişmiş ve açıklanabilir yapay zekâ
ZİYA ATA YAZICI
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL

Geri Dön