Geri Dön

Türkçe klinik metinlerin derin öğrenme yaklaşımları ile sınıflandırılması

Classification of Turkish clinical notes using deep learning techniques

  1. Tez No: 829295
  2. Yazar: HAZAL TÜRKMEN
  3. Danışmanlar: PROF. DR. OĞUZ DİKENELLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Ortamında Mimari Tasarım Bilim Dalı
  13. Sayfa Sayısı: 110

Özet

Doğal dil işleme (DDİ) alanında son yıllarda kaydedilen önemli ilerlemeler, büyük dil modellerinin (BDM'ler) ortaya çıkışıyla birlikte devrim niteliğinde araştırma ve gelişmeleri mümkün kılmıştır. Özellikle alan içi derlemlerle desteklenmiş ve önceden eğitilmiş olan BDM'lerin sunduğu imkanlar, bu devrim niteliğindeki ilerlemeyi daha da belirgin hale getirmiştir. İngilizce dilinde biyomedikal ve klinik DDİ görevlerinde bu tür modellerin oldukça başarılı olduğu birçok çalışma ile açıkça gösterirken ne yazık ki az kaynaklı dillerde bu tür çalışmaların sayısı oldukça sınırlıdır. Tez çalışması bu noktada, dil kaynaklarının sınırlılıklarını aşma hedefiyle hareket ederek transformer tabanlı iki farklı BDM olan BioBERTurk ve TurkRADBERT dil modelleri ailesini geliştirme yoluna gitmiştir. Literatürde ilk kez geliştirilen Türkçe dilindeki biyomedikal ve klinik alanındaki modellerin performansını iyileştirebilmek amacıyla da farklı dil ön eğitim stratejilerinin etkisini araştırılmıştır. Dil modellerinin performanslarının değerlendirilmesi için tez kapsamında oluşturulan ve Türkçe kafa BT radyoloji raporlarının doküman seviyesinde uzman radyologlar tarafından tasarlanarak etiketlenmiş üç farklı veri kümesi ilk kez oluşturulmuştur. BioBERTurk dil modeli ailesi, biyomedikal derlemle eğitim ve sürekli ön eğitim stratejileri kullanılarak diğer Türkçe modellere kıyasla daha iyi performans göstermiş, ancak radyoloji ve medikal derlemelerini birleştiren ve sıfırdan eğitilen model en düşük başarıyı sergilemiştir. Tez kapsamında geliştirilen bir diğer dil modelleri ailesi TurkRadBERT, klinik alanda Türkçede sınırlı dil kaynaklarıyla, radyoloji raporlarını içeren çok etiketli bir sınıflandırma görevinde farklı ön eğitim metodolojilerinin Türkçe klinik dil modellerinin performansına olan etkisini araştırmıştır. Genel Türkçe BERT modeli BERTurk ve TurkRadBERT-task v1, genel alan derleminden elde edilen bilgi sayesinde en iyi genel performansı sergilemiştir. Sonuçlar, optimum performans için genel alan bilgisi ve göreve özgü ince ayarın birleşiminin ve alana özgü kelime sözlüğünün öneminin altını çizmektedir. Özetle bu tez çalışması Türkçe medikal alanında dil modelleri geliştirmek için değerli bilgiler sunmaktadır ve klinik alandaki diğer düşük kaynaklı diller için ön eğitim teknikleri konusunda gelecekteki araştırmalara rehberlik niteliğinde bilgiler sağlamaktadır.

Özet (Çeviri)

The significant advances made in the field of natural language processing (NLP) in recent years, together with the emergence of large language models (LMMs), have enabled revolutionary research and development. This revolutionary progress has been made even more evident by the possibilities offered by LLMs, especially when they are pre-trained and supported by in-domain corpora. While many studies have clearly demonstrated that such models are highly successful in biomedicine and clinical NLP tasks in English, unfortunately, the number of such studies in low-resource languages is very limited. At this point, this thesis aims to overcome the limitations of language resources and develop two different families of transfomer-based LLMs, BioBERTurk and TurkRADBERT language models. In order to improve the performance of the Turkish language biomedicine models developed for the first time in the literature, the effect of different language pre-training strategies was investigated. In order to evaluate the performance of the language models, three different datasets, designed and labeled by expert radiologists at the document level of Turkish head CT radiology reports, were created for the first time.The BioBERTurk family of language models performed better than the other Turkish models using the biomedical corpus training and continuous pre-training strategies, but the model combining radiology and biomedicine corpora and trained from scratch showed the lowest performance. TurkRADBERT, another family of language models developed in this thesis, investigated the effect of different pre-training methodologies on the performance of Turkish clinical language models on a multi-label classification task involving radiology reports in the clinical domain with limited language resources in Turkish. The generic Turkish BERT model BERTurk and TurkRadBERT-task v1 showed the best overall performance thanks to the knowledge gained from the general domain corpus. The results underline the importance of the combination of general domain knowledge, task-specific fine-tuning and domain-specific vocabulary for optimal performance. In summary, this thesis provides valuable insights for developing language models in Turkish biomedicine and provides guidance for future research on pre-training techniques for other low-resource languages in the clinical domain.

Benzer Tezler

  1. Derin öğrenme ile Türkçe sağlık metinleri üzerinde olumsuz anlam tespiti

    Negation detection in Turkish medical texts with deep learning

    ZANA SÖĞÜT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  2. Tanı/tedavi sürecinde kullanılmak üzere tıbbi görüntüleme raporlarının otomatik özetlenmesi

    Automatic summary of medical imaging reports to be used in the diagnosis/treatment process

    SÜMEYRA KUŞ ORDU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  3. Dijital ve etkileşimli İngilizce öykülerin 5. sınıf öğrencilerinde okuduğunu anlamaya etkisinin araştırılması

    The effect of digital and interactive English storybooks on fifth graders' reading comprehension

    NESİME ERTAN ÖZEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Eğitim ve ÖğretimUşak Üniversitesi

    İlköğretim Ana Bilim Dalı

    DOÇ. DR. EROL DURAN

  4. Kronik Böbrek Yetmezlikli Hastalarda Vasküler Akses İçin Oluşturulan Radiosefalik Arteriovenöz Fistüllerin Klinik Olgunlaşmasında Ağır Metallerin Rolü

    Chronic renal failure patients with arteriovenous fistulas clinical vascular axces radiosefalik created for the maturation of the role of heavy metals

    MAHMUT BİÇER

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2012

    BiyokimyaErciyes Üniversitesi

    Kalp ve Damar Cerrahisi Ana Bilim Dalı

    PROF. DR. HALUK KUTAY TAŞDEMİR

  5. Yüksek dolduruculu akışkan kompozitlerin çürüksüz servikal lezyonlardaki başarısı: Sistematik derleme ve meta analizi

    Success of highly filled flowable composites in noncarious-cervical lesions: A systematic review and metaanalysis

    NURDZHAN YUMER BASA

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2023

    Diş Hekimliğiİzmir Katip Çelebi Üniversitesi

    Restoratif Diş Tedavisi Ana Bilim Dalı

    PROF. DR. ESRA UZER ÇELİK