Comparative analysis of NLP models for ICD and ATC classification in Turkish medical datasets
Türkçe tıbbi veri setlerinde ICD ve ATC sınıflandırmaları için NLP modellerinin karşılaştırmalı analizi
- Tez No: 876425
- Danışmanlar: PROF. DR. TANKUT ACARMAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 59
Özet
Bu çalışma, çeşitli NLP yaklaşımlarından yararlanarak ICD (Uluslararası Hastalık Sınıflandırması) ve ATC (Anatomik Terapötik Kimyasal) kodlarını belirlemek amacıyla Türkçe tıp metinlerini sınıflandırmak için çeşitli metodolojileri içermektedir. Bu çalışmadaki başlıca kritik nokta medikal metinlerdeki bağlamın anlaşılması ve orta/uzun boyutlu belgelerin doğru sınıflandırılmasıdır. Diğer bir zorluk ise sınırlı veri kaynaklarına sahip olan Türkçe gibi düşük kaynaklı bir dilde olası bütün kategorilere sahip etiketli bir veri seti elde etmektir. Bu çalışma için iki farklı veri seti kullanılmıştır. İlk veri seti tıbbi makale özetlerinin spesifik olarak ICD-CM-10 C kodlu hastalik sınıfları ile etiketlendirilmiştir. Bu veri seti başka bir ekip tarafından hazırlanmış ve dış kaynaklardan temin edilmiştir. İkinci veri seti ise olası bütün ATC kodlarını kapsayan Türkçe İlaç kılavuzlarını (Kısa Ürün Bilgisi dokümanları) içermektedir. Veri seti oluşturma adımından sonra daha iyi performans sonuçları elde etmek için metin önişleme uygulandı. BERTurk Uncased, BERTurk Large, ElectraBERTurk ve DistilBERTurk gibi birçok farklı BERT modelleri, SVC ve FastText dahil olmak uzere çeşitli modeller her iki veri seti üzerinde uygulandı ve Türkçe Medikal Ozetler Verisetinde %86 lik bir F1-skoru elde edildi. DistilBERT'in Türkçe versiyonu olan DistilBERTurk modeli ise bu veri setinde %92.3 F1-Skoru elde edilmesini saglamistir. En yüksek başarı sonuçları ise Türkçe İlaç Kullanım Kılavuzu veri seti üzerinde elde edildi. FastText ile %96, BERTurk Uncased modeli ile %95.9 F1-skoru ve SVC ile %94 F1 skoru elde edilmiştir. Bu sonuçlar kullanılan modellerin yöntem olarak etkili olduğunu vurgulamaktadır.
Özet (Çeviri)
This study incorporates various methodologies to classify the Turkish medical texts with the aim of identifying ICD (International Classification of Diseases) & ATC (Anatomical Therapeutic Chemical) codes, leveraging various NLP approaches. The primary challenge involves comprehending the context and accurately categorizing medium to long documents into correct classes. Another challenge encompasses the acquisition of a labeled dataset with all categories, given the limited data resources in Turkish, which is a low resource language. Two distinct datasets are acquired for this study. The first dataset, which focuses on specific ICD-CM-10 C-Types, consists of medical summaries in Turkish language and was externally sourced. The second dataset, which is a new dataset including drug manuals covering all ATC types in Turkish is curated. After dataset creation, text processing has been implemented to obtain better performance results. SVC (Support Vector Classifier), FastText and various BERT models, such as BERTurk Uncased, BERTurk Large, ConvBERTurk, ElectraBERTurk and DistilBERTurk are used to classify the documents. Hyperparameter tuning is also applied to harness the potential of BERT and FastText, resulting in a notable 86% overall F1-Score on the Turkish medical summaries dataset and DistilBERTurk, the Turkish version of DistilBERT, resulted in 92.3% overall F1-Score on the same dataset. The most notable accomplishment, however, was for the Turkish Drug Manuals ATC code dataset, where the performance results, 96% F1-score using FastText, 95.9% F1-score using BERTurk Uncased and 94% using SVC models are obtained. These results highlight the effectiveness of the used approaches in Turkish text classification.
Benzer Tezler
- A comparative study of nonlinear model predictive control and reinforcement learning for path tracking
Yol izleme için doğrusal olmayan model öngörülü kontrol ve pekiştirmeli öğrenmenin karşılaştırmalı çalışması
GAMZE TÜRKMEN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. OVSANNA SETA ESTRADA
- Global goals, local voices: A multinational comparative sentiment and topic analysis of public transportation in the context of SDGs
Küresel hedefler, yerel sesler: Sürdürülebilir kalkınma amaçları bağlamında toplu taşımaya yönelik ülkelerin karşılaştırmalı duygu ve konu analizi
ASLIGÜL AKSAN
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE CAMGÖZ AKDAĞ
- Data augmentation for natural language processing
Doğal dil işleme için veri artırma
MUSTAFA ÇATALTAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ
DOÇ. DR. NURDAN BAYKAN
- Developing of a bank ofsyntactic structures ofthe kyrgyz language withinthe frames of theuniversal dependenciesproject
Evrensel bağımlılıklarprojesi çerçevesinde kırgızdilinin sözdizimsel yapılarınınveritabanınınoluşturulması
SEIDE MUSACANOVA
Yüksek Lisans
İngilizce
2024
Mütercim-TercümanlıkKırgızistan-Türkiye Manas ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DR. AİDA KASİEVA
- Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems
Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması
AHMED RAOOF NASSER NASSER
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAYRİ SEVER