Geri Dön

Derin öğrenme ile Türkçe sağlık metinleri üzerinde olumsuz anlam tespiti

Negation detection in Turkish medical texts with deep learning

  1. Tez No: 883926
  2. Yazar: ZANA SÖĞÜT
  3. Danışmanlar: PROF. DR. OĞUZ DİKENELLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Derin Öğrenme, Transformers, Olumsuzlama, Sağlık Metinleri, BERT, Negation Detection, Deep Learning, Transformers, Information Extraction, Medical Corpora
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 116

Özet

Dil, günlük hayatta gözlemlediğimiz ve yorumladığımız bilgileri başka bir alıcıya aktarmamızı sağlar. Farklı ifade biçimleriyle sürekli olarak kullanılması, dili, derin öğrenme ve makine öğrenmesi modelleri için değerli bir veri kaynağı haline getirmektedir. Klinik notlar teşhis koyma, ilaç risklerini tahmin etme ve tedavi etkinliğini değerlendirme gibi görevlerde kullanılacak modeller için değerli bilgiler sunmaktadır. Günlük olarak ve çok sayıda üretilen sağlık ve klinik verilerinin önemli bir kısmını kullandığımız dil oluşturmaktadır. Bu notların içerisinde kullanılan dilin olumsuzlama ve belirsizlik gibi anlam bileşenlerini anlamak, derlemlerin anlam farkındalığı için kritik öneme sahiptir. Dilin bu kadar önemli bir kaynak olmasının yanında işlenme zorlukları da bulunmaktadır. Cümlelerin anlam olarak yoğun ve yapısal olarak uzun olabilmesi, jest mimik gibi fonetik ifadeler kullanılması, ikonlar ile anlatım içerebilmesi, dilbilgisi hataları gibi sebeplerden ötürü kaynaklar makina öğrenimi görevlerinde verimli kullanılamamaktadır. Olumsuzlama dilde kullanılan en karmaşık ve önemli bileşenlerden birisidir. Bir önermenin kısmen veya tamamen reddedilme biçimini, yokluğunu veya derecesini ifade ederek anlamı doğrudan etkileyebilmektedir. Son yıllarda olumsuzlama ve bileşenleri üzerine birçok dilde araştırma yapılmıştır.Sağlık alanında günlük olarak üretilen yüksek miktardaki metin verisi, makina öğrenimi için yeterince sağlıklı bir dijital veri kaynağı oluşturamayabilmektedir. Veri üzerinde bilgi çıkarımı yapabilmek için verilerin konu üzerinde eğitimli uzmanlar tarafından elle veya yardımcı otonom modeller ile işlenmesi veya zengileştirilmesi gerekmektedir. Hâlihazırda Türkçe sağlık metinlerinde olumsuzlama üzerine kapsamlı bir çalışma bulunamamıştır. Kapsam karmaşıklığı ve derlemde kullanılan dil kaynaklarındaki zorlukların giderilebilmesi için disiplinler arası araştırmalara ihtiyaç bulunmaktadır. Bu çalışmada sağlık verilerini, ek verilerle, anlamsal olarak zenginleştirebilecek derin öğrenme modelleri araştırılmıştır. Veriseti 12 tıp anabilim dalında yayınlanmış vaka raporundan oluşmaktadır. Verisetinde olumsuzlama işareti, kapsam ve olay etiketleri bulunmaktadır. Etiketleme ve bileşen modellerinde literatürde bulunan ve araştırma sırasında karşılaşılan farklı yöntemler uygulanmıştır. Etiketleme yönteminde 3 farklı yöntem denenerek model eğitim sürecinden geçirilmiş ve Türkçe için uygunluk dereceleri tartışılmıştır. Ayrıca olumsuzlama bileşenleri tahmin eden model yaklaşımında olumsuzlama işaretleri vektör haline getirilerek belirteçlerin temsil vektörleri sonuna eklenmiştir. Olumsuzlama işaretleri modelinde elde edile en yüksek F1 değeri ilk belirteç etiketleme metodu ile %94.4'tür. Kapsam modelinde %71.16 olay modelinde ise %68.77 F1 skoru elde edilmiştir. Kapsam ve olay modellerinde en yüksek ölçüm değeri devamlı etiketleme ve aynı etiketle etiketleme yöntemleri ile elde edilmiştir. Sonuçlar değerlendirilerek gelecek çalışmalar belirlenmiştir.

Özet (Çeviri)

Language allows us to convey the information we observe and interpret in daily life to another recipient. Being used continuously and so frequently with different forms of expressions makes language a valuable data source for deep learning and machine learning models. Clinical notes provide valuable information for models to be used in tasks such as diagnosing, predicting drug risks and evaluating treatment efficacy. The language we use constitutes an important part of the health and clinical data that is generated on a daily basis and in large numbers. Understanding the meaning components of the language used in these notes, such as negation and ambiguity, is critical for the semantic awareness of corpora. Besides being such an important resource, language also has processing difficulties. Due to the fact that sentences can be semantically dense and structurally long, use phonetic expressions such as gestures, icons, grammatical errors, etc., resources cannot be used efficiently in machine learning tasks. Negation is one of the most complex and important feature of the language. It can directly affect meaning by expressing the way, absence or degree of partial or total rejection of a proposition. Negation is one of the most complex and important components of language. It can directly affect meaning by expressing the manner, absence or degree of partial or total rejection of a proposition. In recent years, research on negation and its components has been conducted in many languages. The large amount of text data generated daily in the field of healthcare may not constitute a healthy enough digital data source for machine learning. In order to extract knowledge from the data, the data needs to be processed or enriched manually by trained experts or with auxiliary autonomous models. There is currently a lack of comprehensive study on negation in Turkish health texts. Interdisciplinary research is needed to address the complexity of the subject and the challenges posed by the language resources used in the compilation. This study explores deep learning models that can enrich health data semantically with additional information. The dataset consists of 20 case reports published in 12 medical disciplines and includes annotation for negation, scope, and event labeling. In the labeling section and component models, different methods found in the literature and encountered during the research were applied. In the labeling method, 3 different methods were applied and the model was put through a training process. After test process the degree of suitability for Turkish in labeling methods was discussed. In addition, in the model approach estimating negation components, negation cues were vectorized and added to the end of the representation vectors of tokens. The highest F1 score obtained from the negation cues models is 94.4% with the first token labeling method. An F1 score of 71.16% was obtained in the scope model and 68.77% in the event model. For the scope and event models, the highest measurement value was obtained with continuous tagging and tagging with the same tag methods. The results were evaluated and future studies were determined.

Benzer Tezler

  1. Anomaly detection using machine learning techniques: A comparative study on first payment default prediction in retail loans

    Yapay öğrenme yöntemleriyle anomali saptanması: Bireysel kredilerde ilk ödemede batma tahmini üzerine karşılaştırmalı bir çalışma

    AHMET TALHA YİĞİT

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bankacılıkİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  2. Kuantum hesaplama kullanan derin öğrenme ile karşılıklı görüşmelerde duygu analizi

    Sentiment analysis in conversations with deep learning using quantum computing

    SEDEF AKSU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET KARAKÖSE

  3. Yapay zeka yöntemleri kullanılarak insan eylemi tanıma

    Human action recognition using artificial intelligence methods

    ENGİN SEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EYLEM YÜCEL DEMİREL

  4. YOLOv7 algoritması ile diş röntgenlerinde lezyon ve çürük tespiti

    Lesion and caries dedection in dental x-rays with YOLOv7 algorithm

    SAFİYE ERSAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDicle Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CAFER BUDAK

  5. Köşe yazılarında yazarlık analizinin adli bilişime katkısı

    Contribution of authorship analysis to computer forensics in columns

    CEMRE KOÇYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Disiplinlerarası Adli Bilimler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BÜLENT TUĞRUL