Türkçe klinik raporlarda isimlendirilmiş varlık tanıma
Named entity recognition in Turkish clinical reports
- Tez No: 950782
- Danışmanlar: DOÇ. DR. ŞEBNEM BORA, PROF. DR. OĞUZ DİKENELLİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 67
Özet
İsimlendirilmiş Varlık Tanıma (İVT), dilin karmaşık sondan eklemeli mor- folojisi ve açıklamalı, etki alanına özgü veri kümelerinin süregelen eksikliği nedeniyle Türkçe klinik metinlere uygulanması zordur. Bu tez, bir“Geri Ge- tirme ve Düşünce Zinciri”çerçevesini uygulayarak ve genişleterek, bu bağlamda az atımlı İVT görevini iyileştirmeye yönelik geniş ölçekli bir çalışma sunmak- tadır. Deneysel değerlendirme için kullanılan iki veri kümesi, 2010 i2b2/VA Challenge veri kümesinin profesyonel olarak çevrilmiş Türkçe versiyonunu ve orijinal İngilizce versiyonunu içermektedir. İVT için odak noktası problem, test ve tedavi varlıklarıdır. Tasarım metodolojimiz, bir Büyük Dil Modelinin (BDM), bu durumda GPT-4o'nun muhakeme gücünü ve dinamik ve bağlama bağlı örnekleri analojik olarak geri getirme sürecini içermektedir. Birkaç örneğin geri getirilmesiyle, BİÖ, BDM'den faydalanır ve varlıkların sınırlarını doğru bir şekilde tanımlamak için daha açık bir akıl yürütme süreci boyunca modele rehberlik etmek üzere DZİ'yi sistematik olarak araştırır. Bu çalışma, RT'nin Geri Getirici bileşenini özellikle dikkate değer olarak tanımlamıştır. Geri Getirici, en alakalı örnekleri almak için çeşitli Cümle Gömüleri modellerini karşılaştıran oldukça kapsamlı bir deneyin odak noktasıdır. İlk örnek olan Türkçe veri kümesinde, RT boru hattını genel bir BERTurk tabanlı Cümle-BERT (SBERT) modeli ile birlikte kullandık ve 0,6656'lık bir Makro-F1 skoru elde ettik. Bunun ardından özel bir SimCSE (Simple Karşıt Öğrenme Cümle Gömüleri) modeli geliştirildi ve bu model daha sonra Türkçe Doğal Dil Çıkarımı (DDÇ) ve BERTurk kullanılarak etki alanından klinik cümle çiftleri kullanılarak ince ayar yapıldı. Bu özel model 0,6525'lik bir Makro-F1 puanı üretmiştir. Bu, özellikle düşük kaynaklı, morfolojik olarak karmaşık bir ortamda çalışırken, genel modellere karşı özel geri getiricileri optimize etmenin son derece incelikli zorluğunu yansıttığı için önemlidir. Ayrıca, orijinal İngilizce i2b2 2010 Veri Kümesi; BioBERT'e dayalı bir Geri Getirici modeline ek olarak aynı RT Boru Hattı ile 0,7475'lik bir Macro-F1 puanı elde edebildik ve iyi kaynaklara sahip bir dil için performans ölçütü olarak hizmet ettik. Sonuçlar, her bir yapılandırma için 500 test örneğinin işlenmesinden elde edilen nicel özellikleri (Kesinlik, Geri Çağırma ve F1 puanları) göstermektedir. Genel olarak, RT çerçevesinin performansı umut verici görünmektedir. Türkçe için SimCSE modeli de özel olarak ayarlanmış olsa da umut vericidir. Ayrıca veriler, genel SBERT modellerinin rekabetçi performansının yanı sıra Türkçe klinik metinler için etki alanı Karşıt Öğrenmenin daha fazla araştırılmasına yönelik fırsatları da göstermektedir. Bu çalışma, çeşitli geri getirici stratejilerinin kullanımının etkilerine ve Düşünce Zinciri İsteminin avantajlarına ilişkin değerli nicel kanıtlar içermekte ve Türkçe klinik metinler gibi klinik açıdan zengin, morfolojik açıdan zengin, düşük kaynaklı etki alanları için daha güvenilir İVT sistemlerinin nihai tasarımına katkıda bulunmaktadır.
Özet (Çeviri)
Named Entity Recognition (NER) is difficult to apply to Turkish clinical texts due to the language's complex agglutinative morphology and an ongoing lack of annotated, domain-specific datasets. This thesis presents a large-scale study on improving the few-shot NER task in this context by implementing and extending a“Retrieving and Chain-of-Thought”framework. The two datasets used for empirical evaluation include a professionally translated Turkish version of the 2010 i2b2/VA Challenge dataset and the original English version. The focus is on NER for the problem, test, and treatment entities. Our design methodology incorporates the reasoning power of a Large Language Model (LLM), in this case, GPT-4o and a process of analogically retrieving examples that are dynamic and context-dependent. By retrieval of a few examples, the ICL exploits the LLM and systematically investigated CoT prompting to guide the model through a more overt reasoning process to accurately delineate the boundaries of the entities. This study identified the retriever component of RT as especially notable. The retriever is the focus of a quite thorough experiment comparing various sentence embedding models for retrieving the most relevant examples. In the first example, the Turkish dataset, we used the RT pipeline with a general BERTurk-based Sentence-BERT (SBERT) model for retrieving and achieved a Macro-F1 score of 0.6656. This was followed by the development of a custom SimCSE (Simple Contrastive Learning of Sentence Embeddings) model, which was then fine-tuned using Turkish Natural Language Inference (NLI) and clinical sentence pairs from the domain using BERTurk. This specific model generated a Macro-F1 score of 0.6525. This is important because it reflects the highly nuanced challenge of optimizing specialized retrievers against general models, particularly when working in a low-resource, morphologically complex environment. Furthermore, on the original English i2b2 2010 dataset; with the same RT pipeline in addition to a retriever model based on BioBERT we were able to achieve a Macro-F1 score of 0.7475, and serve as a performance benchmark for a well-resourced language. The results show the quantitative aspects obtained (Precision, Recall and F1-scores) from processing 500 test samples for each configuration. Overall, the performance of the RT framework appears promising. The SimCSE model for Turkish, though custom-tuned, is also promising. Additionally, the data also shows the competitive performance of general SBERT models along with opportunities for further investigating domain specific contrastive learning for Turkish clinical text. The work includes valuable quantitative evidence of the effects of using the various retrieval strategies and the advantages of CoT prompting, contributing to the eventual design of more reliable NER systems for clinically-resourced, morphologically-rich, low-resource, domains such as Turkish clinical texts.
Benzer Tezler
- Sıçanlarda ezilme tipi travmatik ampütasyonların yönetiminde, ektopik replantasyonun ampütat yaşayabilirliği üzerine etkisinin araştırılması
Evaluation of the effect of ectopic replantation on amputate viability in the management of crush-type traumatic amputations in rats
MÜNÜR SELÇUK KENDİR
Tıpta Uzmanlık
Türkçe
2022
Plastik ve Rekonstrüktif CerrahiNecmettin Erbakan ÜniversitesiPlastik Rekonstrüktif ve Estetik Cerrahi Ana Bilim Dalı
PROF. DR. BİLSEV İNCE
- Travma skorlama sistemlerinin adli raporlarda yaşamı tehlikeye sokan yaralanmanın şiddetini ayırt etmede kullanılabilirliği
The usefulness of trauma scoring systems to differentiate severity of life-threatening injuries in forensic reports
MURAT ŞENAVCI
Tıpta Uzmanlık
Türkçe
2020
Adli TıpAydın Adnan Menderes ÜniversitesiAdli Tıp Ana Bilim Dalı
DOÇ. DR. ÖZLEM EREL
- Acil serviste düzenlenen adli raporlara eğitimin etkisinin değerlendirilmesi
Evaluation of the effect of education on forensic reports prepared at the emergency service
ASMİN YILDIRIM
Tıpta Uzmanlık
Türkçe
2023
Aile HekimliğiDicle ÜniversitesiAile Hekimliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ VASFİYE DEMİR
- 2010-2019 yılları arasında Akdeniz Üniversitesi Tıp Fakültesi adli tıp anabilim dalı'nda rapor düzenlenen yanık olgularının incelenmesi
Review of burn cases reported in the department of forensic medicine of Akdeniz University Aculty of Medicine between 2010-2019
İBRAHİM DEMİR
Tıpta Uzmanlık
Türkçe
2021
Adli TıpAkdeniz ÜniversitesiAdli Tıp Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ATILGAN
- Kronik viral hepatitlerde uygulanan histopatolojik skorlama kriterlerinin tedavi başarısı ile ilişkisinin araştırılması
The relationship between treatment response and histological scoring systems applied in chronic viral hepatitis
SAMİR ABDULLAZADE
Tıpta Uzmanlık
Türkçe
2011
PatolojiHacettepe ÜniversitesiPatoloji Ana Bilim Dalı
PROF. DR. CENK SÖKMENSÜER