Biomedical entity normalization using clustering and text similarity
Kümeleme ve metin benzerliği kullanarak biyomedikal varlık ismi normalizasyonu
- Tez No: 881619
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 63
Özet
Tıp literatüründe her gün kapsamlı biyomedikal metinler birikmektedir. Biyolojik varlıkların doğru bir şekilde bulunması, biyomedikal araştırmaların yanı sıra tıbbi teşhis ve tedavi için de çok önemlidir ve sağlık hizmetlerinde önemli ilerlemeler vaat etmektedir. Bir metindeki varlıkların tanınması olan Adlandırılmış Varlık Tanıma ve varlıkların karşılık gelen tanımlayıcılarıyla ilişkilendirilmesi olan Adlandırılmış Varlık Normalleştirme, doğal dil işleme alanında halen araştırılmakta olan iki ilgili görevdir. Bu görevler biyolojik ve tıbbi veri tabanlarındaki verilerin bütünlüğünü sağlamak için önemlidir. Tıbbi metinlerdeki biyomedikal varlıkları biyomedikal ontolojilerdeki veya sözlüklerdeki karşılık gelen tanımlayıcılarla normalleştirmek, yerelleştirme, beklenmedik kısaltmalar ve eşanlamlılar gibi faktörlerle daha da karmaşıklaşan büyük bir zorluktur. Benzer kelimeler farklı varlıklara karşılık geldiğinde ve tersine, sözcüksel olarak farklı varlıklar aynı kimliğe sahip olduğunda bu zorluk daha da artmaktadır. Bu tezde, biyolojik varlıkları bir ontoloji veya sözlükteki karşılık gelen tanımlayıcılarıyla eşleştiren bir NEN sistemi öneriyoruz. Yöntemimiz, BERT tabanlı bağlamsal kelime vektör temsillerini ve varlık normalleştirmek için söz öbeği benzerliklerini kullanarak metin benzerliği ile birlikte bir kümeleme yaklaşımı kullanmaktadır. Daha karmaşık denetimli yaklaşımlara kıyasla hastalık ve semptom normalizasyonu için kıyaslama veri kümelerinde umut verici sonuçlar elde edilmiştir. Sonuçlar, basitliğine rağmen, önerdiğimiz yaklaşımın adlandırılmış varlık normalizasyonu için etkili olduğunu ve farklı dillere ve alanlara verimli bir şekilde uyarlanabileceğini göstermektedir.
Özet (Çeviri)
Extensive biomedical texts accumulate daily in the medical literature. The accurate identification of biological entities is of crucial importance for biomedical research, as well as for medical diagnosis and treatment, and promises significant advances in healthcare. Named Entity Recognition (NER), the recognition of entities in a text, and Named Entity Normalization (NEN), the linking of entities with their corresponding identifiers, are two related tasks that are still under investigation in natural language processing (NLP). These tasks are important to ensure the integrity of data in biological and medical databases. Normalizing biomedical entities in medical texts with the corresponding identifiers in biomedical ontologies or dictionaries is a major challenge, which is compounded by factors such as localization, unexpected abbreviations and synonyms. This challenge becomes even greater when similar words correspond to different entities and, conversely, lexically different entities have the same identity. In this thesis, we propose a NEN system that matches biological entities with their corresponding identifiers in an ontology or dictionary. Our method uses a clustering approach in combination with text similarity, using BERT-based contextual word vector representations and string similarity to normalize entity mentions. Promising results have been obtained in benchmark datasets for disease and symptom normalization compared to more complicated supervised approaches. The results show that despite its simplicity, our proposed approach is effective for named entity normalization and can be efficiently adapted to different languages and domains.
Benzer Tezler
- Mention extraction and normalization using ontologies in the biomedical domain
Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme
MERT TİFTİKCİ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Ontology-based entity tagging and normalization in the biomedical domain
Biyomedikal alanda ontoloji tabanlı varlık ismi etiketleme ve normalizasyonu
ZEYNEP İLKNUR KARADENİZ EROL
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Using transformer networks for detection andnormalization of named entities in biomedical texts
Dönüştürücü ağları kullanılarak biyomedikal metinlerde varlık isimlerinin tanınması ve normalizasyonu
İLKAY RAMAZAN PALA
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Improving self-attention based transformer performance for morphologically rich languages
Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi
YİĞİT BEKİR KAYA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- An ontology based representation of semantic annotations for biomedical relations extracted from scientific documents
Bilimsel belgelerden çıkarılmış biyomedikal ilişkiler için anlamsal açıklamaların ontoloji temelli temsili
BERKAY ATAMAN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. SUSAN MICHELE ÜSKÜDARLI