Geri Dön

Comparative analysis of NLP models for ICD and ATC classification in Turkish medical datasets

Türkçe tıbbi veri setlerinde ICD ve ATC sınıflandırmaları için NLP modellerinin karşılaştırmalı analizi

  1. Tez No: 876425
  2. Yazar: DAMLA BÜŞRA ÖZSÖNMEZ
  3. Danışmanlar: PROF. DR. TANKUT ACARMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Galatasaray Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 59

Özet

Bu çalışma, çeşitli NLP yaklaşımlarından yararlanarak ICD (Uluslararası Hastalık Sınıflandırması) ve ATC (Anatomik Terapötik Kimyasal) kodlarını belirlemek amacıyla Türkçe tıp metinlerini sınıflandırmak için çeşitli metodolojileri içermektedir. Bu çalışmadaki başlıca kritik nokta medikal metinlerdeki bağlamın anlaşılması ve orta/uzun boyutlu belgelerin doğru sınıflandırılmasıdır. Diğer bir zorluk ise sınırlı veri kaynaklarına sahip olan Türkçe gibi düşük kaynaklı bir dilde olası bütün kategorilere sahip etiketli bir veri seti elde etmektir. Bu çalışma için iki farklı veri seti kullanılmıştır. İlk veri seti tıbbi makale özetlerinin spesifik olarak ICD-CM-10 C kodlu hastalik sınıfları ile etiketlendirilmiştir. Bu veri seti başka bir ekip tarafından hazırlanmış ve dış kaynaklardan temin edilmiştir. İkinci veri seti ise olası bütün ATC kodlarını kapsayan Türkçe İlaç kılavuzlarını (Kısa Ürün Bilgisi dokümanları) içermektedir. Veri seti oluşturma adımından sonra daha iyi performans sonuçları elde etmek için metin önişleme uygulandı. BERTurk Uncased, BERTurk Large, ElectraBERTurk ve DistilBERTurk gibi birçok farklı BERT modelleri, SVC ve FastText dahil olmak uzere çeşitli modeller her iki veri seti üzerinde uygulandı ve Türkçe Medikal Ozetler Verisetinde %86 lik bir F1-skoru elde edildi. DistilBERT'in Türkçe versiyonu olan DistilBERTurk modeli ise bu veri setinde %92.3 F1-Skoru elde edilmesini saglamistir. En yüksek başarı sonuçları ise Türkçe İlaç Kullanım Kılavuzu veri seti üzerinde elde edildi. FastText ile %96, BERTurk Uncased modeli ile %95.9 F1-skoru ve SVC ile %94 F1 skoru elde edilmiştir. Bu sonuçlar kullanılan modellerin yöntem olarak etkili olduğunu vurgulamaktadır.

Özet (Çeviri)

This study incorporates various methodologies to classify the Turkish medical texts with the aim of identifying ICD (International Classification of Diseases) & ATC (Anatomical Therapeutic Chemical) codes, leveraging various NLP approaches. The primary challenge involves comprehending the context and accurately categorizing medium to long documents into correct classes. Another challenge encompasses the acquisition of a labeled dataset with all categories, given the limited data resources in Turkish, which is a low resource language. Two distinct datasets are acquired for this study. The first dataset, which focuses on specific ICD-CM-10 C-Types, consists of medical summaries in Turkish language and was externally sourced. The second dataset, which is a new dataset including drug manuals covering all ATC types in Turkish is curated. After dataset creation, text processing has been implemented to obtain better performance results. SVC (Support Vector Classifier), FastText and various BERT models, such as BERTurk Uncased, BERTurk Large, ConvBERTurk, ElectraBERTurk and DistilBERTurk are used to classify the documents. Hyperparameter tuning is also applied to harness the potential of BERT and FastText, resulting in a notable 86% overall F1-Score on the Turkish medical summaries dataset and DistilBERTurk, the Turkish version of DistilBERT, resulted in 92.3% overall F1-Score on the same dataset. The most notable accomplishment, however, was for the Turkish Drug Manuals ATC code dataset, where the performance results, 96% F1-score using FastText, 95.9% F1-score using BERTurk Uncased and 94% using SVC models are obtained. These results highlight the effectiveness of the used approaches in Turkish text classification.

Benzer Tezler

  1. A comparative study of nonlinear model predictive control and reinforcement learning for path tracking

    Yol izleme için doğrusal olmayan model öngörülü kontrol ve pekiştirmeli öğrenmenin karşılaştırmalı çalışması

    GAMZE TÜRKMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. OVSANNA SETA ESTRADA

  2. Global goals, local voices: A multinational comparative sentiment and topic analysis of public transportation in the context of SDGs

    Küresel hedefler, yerel sesler: Sürdürülebilir kalkınma amaçları bağlamında toplu taşımaya yönelik ülkelerin karşılaştırmalı duygu ve konu analizi

    ASLIGÜL AKSAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE CAMGÖZ AKDAĞ

  3. Data augmentation for natural language processing

    Doğal dil işleme için veri artırma

    MUSTAFA ÇATALTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

    DOÇ. DR. NURDAN BAYKAN

  4. Developing of a bank ofsyntactic structures ofthe kyrgyz language withinthe frames of theuniversal dependenciesproject

    Evrensel bağımlılıklarprojesi çerçevesinde kırgızdilinin sözdizimsel yapılarınınveritabanınınoluşturulması

    SEIDE MUSACANOVA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mütercim-TercümanlıkKırgızistan-Türkiye Manas Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DR. AİDA KASİEVA

  5. Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems

    Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması

    AHMED RAOOF NASSER NASSER

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER