Large language models for biomedical relation extraction and explanation
Biyomedikal metinlerde ilişki çıkarımı ve açıklanması için büyük dil modelleri
- Tez No: 859487
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 83
Özet
Biyomedikal literatürün hızlı gelişmesi nedeniyle, doğal dil işleme ve metin madenciliği teknikleri kullanılarak biyomedikal metinlerden yararlı bilgilerin çıkarılması büyük talep görmektedir. En önemli metin madenciliği görevlerinden biri, varlıklar arasındaki ilişkilerin tanımlanmasını içeren ilişki çıkarmadır. Büyük Dil Modellerinin (BDM) çeşitli doğal dil işleme görevlerindeki başarısından esinlenerek, biyomedikal metinlerden protein-protein etkileşimlerini çıkarmak ve bu etkileşimleri açıklamak için BDM tabanlı bir yaklaşım kullanılmasını öneriyoruz. İlişki çıkarımı için BioBERT, SciBERT ve PubMedBERT maskeli dil modellerine beş farklı kıyaslama veri kümesinde ince ayar yaptık ve bunların belirli bir metinde bahsedilen protein-protein etkileşimlerini etkili bir şekilde tanımlayabildiklerini gösterdik. Daha sonra, nedensel BDM'leri kullanarak çıkarılan protein-protein ilişkilerini daha ayrıntılı analiz etmek için yeni bir yaklaşım geliştirdik. Bir protein çifti arasındaki etkileşimi ortaya çıkaran metindeki anahtar kelimeleri belirlemek için, Llama-2 sohbet modellerine bağlam içi öğrenme ve parametre verimli talimat ince ayarı gibi farklı öğrenme stratejileri uyguladık. Sonuçlarımız, parametre açısından verimli ince ayarın, yeni bir eğitim alanında bile model performansında artış sağladığını gösteriyor. Daha küçük ince ayarlı modeller, çok daha büyük modellerin sıfır atış performansından daha iyi performans gösterdi. Çalışmamız, ilişki çıkarımı için maskeli ayarla ilişki çıkarımı ve ilişki açıklaması için nedensel BDM'den oluşan sistemin, gerçek dünya senaryolarında protein-protein ilişkilerinin analizinde kullanmak için etkili bir strateji olabileceğini öne sürüyor.
Özet (Çeviri)
Due to the rapid growth of biomedical literature, the extraction of useful information from biomedical texts using natural language processing (NLP) and text mining techniques is in high demand. One of the most important text mining tasks is relation extraction (RE), which involves identifying relationships between entities. Inspired by the success of Large Language Models (LLMs) in various NLP tasks, we propose an LLM-based approach to extract and explain protein-protein interactions (PPIs) from biomedical texts. For relation extraction, we fine-tuned the masked language models BioBERT, SciBERT and PubMedBERT on five PPI benchmark datasets and showed that they can effectively identify PPIs mentioned in a given text. Next, we developed a novel approach to further analyze the extracted PPIs using causal LLMs. We applied different learning strategies, namely in-context learning and parameter-efficient instruction fine-tuning for the Llama-2 chat models, to identify keywords in the text that reveal an interaction between a protein pair. Our results show that parameter-efficient fine-tuning leads to a performance gain even when the domain is new. The smaller fine-tuned models outperformed the zero-shot performance of much larger models. Our study suggests that a pipeline consisting of a masked LLM for relation extraction and a causal LLM for relation explanation can be an effective strategy for building a PPI analyser in real-world scenarios.
Benzer Tezler
- Relation prediction over biomedical knowledge bases for drugrepositioning
Başlık çevirisi yok
MEHMET GÖKHAN BAKAL
- Generating explanations for complex biomedical queries
Karmaşık biyomedikal sorgular için açıklama üretme
UMUT ÖZTOK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ESRA ERDEM
- Türkçe klinik metinlerin derin öğrenme yaklaşımları ile sınıflandırılması
Classification of Turkish clinical notes using deep learning techniques
HAZAL TÜRKMEN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
- Biyolojik işaretlerin gelişmiş bir sayısal işaret işlemcisiyle işlenmesi
Biomedical signal processing using a high performance DSP
DERYA DEMİR
Yüksek Lisans
Türkçe
1991
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. ERTUĞRUL YAZGAN
- Derin öğrenme modellerinin hücre veri seti üzerinde eğitilerek kıyaslanması ve mobil ortama uyarlanması
Comparision and mobile application of deep learning models trained on blood cell dataset
MEHMET YAVUZ
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA ZAHİD YILDIZ