Mention extraction and normalization using ontologies in the biomedical domain
Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme
- Tez No: 604542
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Bu tezde ilaç prospektüslerinde bulunan ilaç yan etkilerini gösteren varlık isimlerinin tanınarak MedDRA sözlüğü içerisindeki kavramlara normalize etmeyi sağlayan kural ve makine öğrenmesi tabanlı bir sistem önerilmektedir. Makine öğrenmesi yaklaşımı, yakın zamanda önerilen ve cümle seviyesinde çalışan bir derin öğrenme modelini temel almaktadır. Model önceden öğrenilmiş kelime temsilleri ve kelime karakterlerinden üretilmiş evrişimli sinir ağları temsillerinin birleşiminden oluşan temsillerden faydalanır. Üretilen temsiller özniteliklerinin çıkarılması için ilk olarak uzun kısa-süreli bellek katmanından geçirilir. Son olarak, çıkarılan öznitelikleri kullanarak hedeflenen varlık isimlerini tahmin etmek üzere Şartlı Rastgele Alanlar eğitilir. Tanımlanmış ilaç yan etkilerini MedDRA sözlüğü kavramlarına normalize eden kural tabanlı yaklaşım, SciMiner isimli bir metin madenciliği sisteminin uzantısından temellenmiştir. Önerilen sistem, TAC-ADR 2017 yarışmasının veri kümesi ile değerlendirilmiştir. Bu veri kümesi ayrık ve üst üste binen varlık isimlerine sahip olduğu için, model yakın zamanda önerilen ve bu tip varlık isimlerini tanıyabilmek için tasarlanmış öbek şemasından da faydalanmaktadır. Model TAC veri kümesi üzerinde 76,97 f-skor elde etmiştir. Modelin genel gazete yazıları üzerinde eğitilmiş modeller kadar başarılı olmamasına sebepleri arasında veri kümesinin küçük olması ve sınıf örneklerinin eşit dağılmaması yer alır.
Özet (Çeviri)
This thesis proposes a machine learning- and rule-based system for the identification of adverse drug reaction (ADR) entity mentions in the text of drug labels and their normalization through the MedDRA dictionary. The machine learning approach is based on a recently proposed deep learning model that works on the sentence level. The model makes use of the combination of the pre-trained word embeddings and Convolutional Neural Network (CNN) embeddings generated from the characters of a given token. These tokens are initially passed through bi-directional Long Short-Term Memory (Bi-LSTM) layers for feature extraction. Finally, a Conditional Random Fields (CRF) classifier is trained on those extracted features for the prediction of the target mentions. The rule-based approach, used for normalizing the identified ADR mentions to MedDRA terms, is based on an extension of the text-mining system called SciMiner. The proposed system is evaluated with the TAC-ADR 2017 challenge dataset. Since this dataset contains mentions that are disjoint and overlapping, the model also uses a recently proposed chunking scheme designed to handle those types. The model obtained 76.97 f-score performance on the TAC dataset. Some of the challenges for the worse performance compared to performance of the models trained on the generic newspaper text are the small size of the training dataset and the uneven distribution of the class instances.
Benzer Tezler
- An implementation of mono and stereo slam system utilizing efficient map management strategy
Etkin harita yönetim stratejisi kullanan mono ve stereo slam sistemi uygulaması
ADNAN KALAY
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
YRD. DOÇ. DR. İLKAY ULUSOY
- Metrolarda yangın güvenlik önlemleri
Fire safety measures in subways
RABİA SİNEM FAZİLET
Yüksek Lisans
Türkçe
2015
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. TURGUT ÖZTÜRK
- A feature based simple machine learning approach with word embeddings to named entity recognition on tweets
Kavram tanıma üzerine özellik tabanlı bir makine öğrenmesi yaklaşımı
METE TAŞPINAR
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. TANKUT ACARMAN
- Türkiye'de vergi uygulamalarının gelişiminin teknik açıdan incelenmesi
Investigation of the techni̇cal aspects of the development of taxati̇on in Turkey
NECATİ NURCALI
- Wavelet frames and redundant wavelet transforms for fault detection
Dalgacık çerçeveleri ve artıklı dalgacık dönüşümleri ile arıza tespiti
TAYFUN ŞENGÜLER
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAHİN SERHAT ŞEKER