Geri Dön

Biomedical entity normalization using clustering and text similarity

Kümeleme ve metin benzerliği kullanarak biyomedikal varlık ismi normalizasyonu

  1. Tez No: 881619
  2. Yazar: BERKE KAVAK
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

Tıp literatüründe her gün kapsamlı biyomedikal metinler birikmektedir. Biyolojik varlıkların doğru bir şekilde bulunması, biyomedikal araştırmaların yanı sıra tıbbi teşhis ve tedavi için de çok önemlidir ve sağlık hizmetlerinde önemli ilerlemeler vaat etmektedir. Bir metindeki varlıkların tanınması olan Adlandırılmış Varlık Tanıma ve varlıkların karşılık gelen tanımlayıcılarıyla ilişkilendirilmesi olan Adlandırılmış Varlık Normalleştirme, doğal dil işleme alanında halen araştırılmakta olan iki ilgili görevdir. Bu görevler biyolojik ve tıbbi veri tabanlarındaki verilerin bütünlüğünü sağlamak için önemlidir. Tıbbi metinlerdeki biyomedikal varlıkları biyomedikal ontolojilerdeki veya sözlüklerdeki karşılık gelen tanımlayıcılarla normalleştirmek, yerelleştirme, beklenmedik kısaltmalar ve eşanlamlılar gibi faktörlerle daha da karmaşıklaşan büyük bir zorluktur. Benzer kelimeler farklı varlıklara karşılık geldiğinde ve tersine, sözcüksel olarak farklı varlıklar aynı kimliğe sahip olduğunda bu zorluk daha da artmaktadır. Bu tezde, biyolojik varlıkları bir ontoloji veya sözlükteki karşılık gelen tanımlayıcılarıyla eşleştiren bir NEN sistemi öneriyoruz. Yöntemimiz, BERT tabanlı bağlamsal kelime vektör temsillerini ve varlık normalleştirmek için söz öbeği benzerliklerini kullanarak metin benzerliği ile birlikte bir kümeleme yaklaşımı kullanmaktadır. Daha karmaşık denetimli yaklaşımlara kıyasla hastalık ve semptom normalizasyonu için kıyaslama veri kümelerinde umut verici sonuçlar elde edilmiştir. Sonuçlar, basitliğine rağmen, önerdiğimiz yaklaşımın adlandırılmış varlık normalizasyonu için etkili olduğunu ve farklı dillere ve alanlara verimli bir şekilde uyarlanabileceğini göstermektedir.

Özet (Çeviri)

Extensive biomedical texts accumulate daily in the medical literature. The accurate identification of biological entities is of crucial importance for biomedical research, as well as for medical diagnosis and treatment, and promises significant advances in healthcare. Named Entity Recognition (NER), the recognition of entities in a text, and Named Entity Normalization (NEN), the linking of entities with their corresponding identifiers, are two related tasks that are still under investigation in natural language processing (NLP). These tasks are important to ensure the integrity of data in biological and medical databases. Normalizing biomedical entities in medical texts with the corresponding identifiers in biomedical ontologies or dictionaries is a major challenge, which is compounded by factors such as localization, unexpected abbreviations and synonyms. This challenge becomes even greater when similar words correspond to different entities and, conversely, lexically different entities have the same identity. In this thesis, we propose a NEN system that matches biological entities with their corresponding identifiers in an ontology or dictionary. Our method uses a clustering approach in combination with text similarity, using BERT-based contextual word vector representations and string similarity to normalize entity mentions. Promising results have been obtained in benchmark datasets for disease and symptom normalization compared to more complicated supervised approaches. The results show that despite its simplicity, our proposed approach is effective for named entity normalization and can be efficiently adapted to different languages and domains.

Benzer Tezler

  1. Mention extraction and normalization using ontologies in the biomedical domain

    Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme

    MERT TİFTİKCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  2. Ontology-based entity tagging and normalization in the biomedical domain

    Biyomedikal alanda ontoloji tabanlı varlık ismi etiketleme ve normalizasyonu

    ZEYNEP İLKNUR KARADENİZ EROL

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  3. Using transformer networks for detection andnormalization of named entities in biomedical texts

    Dönüştürücü ağları kullanılarak biyomedikal metinlerde varlık isimlerinin tanınması ve normalizasyonu

    İLKAY RAMAZAN PALA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  4. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. An ontology based representation of semantic annotations for biomedical relations extracted from scientific documents

    Bilimsel belgelerden çıkarılmış biyomedikal ilişkiler için anlamsal açıklamaların ontoloji temelli temsili

    BERKAY ATAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. SUSAN MICHELE ÜSKÜDARLI