Information extraction from radiology reports
Radyoloji raporlarından bilgi çıkarma
- Tez No: 846902
- Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 79
Özet
Bu araştırmanın temel amacı Türk radyoloji raporlarından bilgi çıkarmanın doğruluğunu ve verimliliğini arttırmaktır. Bu hedefe yönelik olarak çalışma, adlandırılmış varlık tanıma için bir derin öğrenme çerçevesi geliştirmeyi ve değerlendirmeyi amaçlamaktadır. Araştırma ekibimizdeki radyologlar tarafından oluşturulan ve etiketlenen 1056 Türk radyoloji raporundan oluşan sentetik bir veri seti kullandık. Gizlilik endişeleri nedeniyle gerçek hasta verileri kullanılamadı. Ancak sentetik veriler, yapı ve içerik bakımından gerçek raporları yakından taklit ediyor. Deneyler için dört aşamalı DYGIE++ modelini kullandık. İlk olarak dört BERT modelini kullanarak token kodlamayı gerçekleştiriyoruz: BERTurk, BioBERTurk, PubMedBert ve XLM-RoBERTa. İkinci olarak, Türkçedeki bir cümlenin kelime sayısını dikkate alarak uyarlamalı kapsam sayımına geçiyoruz. Üçüncüsü, yayılma grafiği yayılımı, çekirdek referans çözünürlüğü için çok önemli olan çok yönlü bir grafik oluşturur. Son olarak, adlandırılmış varlığı sınıflandırmak için iki katmanlı ileri beslemeli bir sinir ağı kullanıyoruz. Etiketli veri kümesi üzerinde gerçekleştirilen deneyler, yaklaşımın etkinliğini göstermektedir. Çalışma, adı geçen varlık tanıma görevi için 80,1 F1 puanına ulaştı; BioBERTurk modelinin, denenen dört BERT modeli arasında en etkili model olduğu kanıtlandı. BioBERTurk, Türkçe Vikipedi, radyoloji raporları ve biyomedikal metinler konusunda önceden eğitilmiştir. Farklı veri kümesi etiketlerinin modelin performansını nasıl etkilediğini gösteriyoruz. Sonuçlar, her etiket için kesinlik, geri çağırma ve F1 puanlarının ayrıntılı bir analizini sağlayarak, modelin Türk radyoloji raporlarının karmaşıklıklarını ele alma yeteneğini göstermektedir. Ek olarak, çalışma bulgularını diğer düşük kaynaklı dillerdeki ilgili çalışmalarla karşılaştırmaktadır.
Özet (Çeviri)
The primary objective of this research is to enhance the accuracy and efficiency of information extraction from Turkish radiology reports. In addressing this objective, the study aims to develop and evaluate a deep-learning framework for named entity recognition. We used a synthetic dataset of 1056 Turkish radiology reports created and labeled by the radiologists in our research team. Due to privacy concerns, actual patient data could not be used. However, the synthetic data closely mimics genuine reports in structure and content. We employed the four-stage DYGIE++ model for the experiments. Firstly, we perform token encoding using four BERT models: BERTurk, BioBERTurk, PubMedBert, and XLM-RoBERTa. Secondly, we introduce adaptive span enumeration, considering the word count of a sentence in Turkish. Thirdly, span graph propagation generates a multidirectional graph crucial for coreference resolution. Lastly, we use a two-layered feed-forward neural network to classify the named entity. Experiments conducted on the labeled dataset showcase the approach's effectiveness. The study achieves an F1 score of 80.1 for the named entity recognition task, with the BioBERTurk model proving to be the most effective among the four experimented BERT models. BioBERTurk is pre-trained on Turkish Wikipedia, radiology reports, and biomedical texts. We show how different dataset labels affect the model's performance. The results demonstrate the model's ability to handle the intricacies of Turkish radiology reports, providing a detailed analysis of precision, recall, and F1 scores for each label. Additionally, the study compares its findings with related work in other low-resource languages.
Benzer Tezler
- Processing Turkish radiology reports
Türkçe radyoloji raporlarının işlenmesi
KEREM HADIMLI
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
DR. MELTEM TURHAN YÖNDEM
PROF. DR. GÖKTÜRK ÜÇOLUK
- Gerçek zamanlı mamografi yorumu karar destek sistemi
A real time decision support system for mammography interpretations
SELEN BOZKURT
Doktora
Türkçe
2015
BiyoistatistikAkdeniz ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
YRD. DOÇ. DR. KEMAL HAKAN GÜLKESEN
- Türk populasyonunda bifid mandibular kanal görülmesi sıklığının konik ışınlı bilgisayarlı tomografi yöntemiyle incelenmesi
Investigation of bifid mandibular canal frequency with cone beam computed tomography in A Turkish population
GÖZDE SERİNDERE
Diş Hekimliği Uzmanlık
Türkçe
2015
Diş HekimliğiOndokuz Mayıs ÜniversitesiAğız, Diş ve Çene Radyolojisi Ana Bilim Dalı
DOÇ. DR. KAAN GÜNDÜZ
- Predicting von hippel lindau (VHL), polybromo-1 (PBRM1)mutations and stages of clear cell renal cell carcinomafrom computed tomography images by machine learning
Bilgisayarli tomografi görüntülerinden makine ögrenmesi ileberrak hücreli böbrek karsinomun von hippel lindau (VHL)ve polybromo-1 (PBRM1) mutasyonlarinin ve evrelerinintahmin edilmesi
HARİKA BESTE ÖKMEN
Yüksek Lisans
İngilizce
2019
BiyomühendislikBoğaziçi ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALBERT GÜVENİŞ
- Uydu görüntüleri ve tıbbi görüntülerden benzer görüntü işleme teknikleriyle bilgi çıkarımı
Data extraction with similar techniques: satellite images and medical images
UĞUR ACAR
Doktora
Türkçe
2012
Jeodezi ve FotogrametriYıldız Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
DOÇ. DR. BÜLENT BAYRAM