Geri Dön

Yapay zeka programlarının (ChatGPT ve Gemini) Aciliyet Şiddeti İndeksi (AŞİ) ve renk kodlu kombine triyaj uygulamasındaki etkinlikleri

Effectiveness of artificial intelligence programs (ChatGPT and Gemini) in the Emergency Severity Index (ESI) and color-coded combined triage application

  1. Tez No: 934676
  2. Yazar: OĞUZHAN YILMAZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZGEN GÖNENÇ ÇEKİÇ
  4. Tez Türü: Tıpta Uzmanlık
  5. Konular: Acil Tıp, Emergency Medicine
  6. Anahtar Kelimeler: Acil servis, triyaj, yapay zekâ, ChatGPT, Gemini, Aciliyet Şiddeti İndeksi, renkli triyaj, Emergency department, triage, artificial intelligence, ChatGPT, Gemini, Emergency Severity Index, color-coded triage
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Sağlık Bilimleri Üniversitesi
  10. Enstitü: Trabzon Tıp Fakültesi
  11. Ana Bilim Dalı: Acil Tıp Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

GİRİŞ: Acil servislerde doğru ve hızlı triyaj, hasta yönetimi açısından kritik öneme sahiptir. Yapay zekâ (YZ) tabanlı büyük dil modelleri (LLM), son yıllarda sağlık alanında karar destek aracı olarak giderek daha fazla ilgi görmektedir. Bu çalışmada, GPT-4o ve Gemini 2.0 Flash modellerinin Aciliyet Şiddeti İndeksi (AŞİ) ve renkli triyaj sisteminde gösterdiği performans, deneyimli triyaj hemşirelerinin kararları ve acil servis doktorlarının altın standart sınıflandırmaları ile karşılaştırılarak değerlendirilmiştir. Çalışmanın amacı, LLM'nin triyaj doğruluğunu belirlemek ve deneyimli sağlık profesyonelleri ile karşılaştırmalı olarak güçlü ve zayıf yönlerini ortaya koymaktır. GEREÇ VE YÖNTEM: Bu tek merkezli, kesitsel ve karşılaştırmalı gözlemsel çalışma, 01.09.2024–01.10.2024 tarihleri arasında acil servise başvuran toplam 11.061 hastanın verileri ile yürütülmüştür. Hastaların yaş, cinsiyet, geliş şikâyeti, vital bulguları ve eşlik eden hastalıkları içeren yapılandırılmış bilgiler GPT-4o, Gemini 2.0 Flash modellerine ve deneyimli triyaj hemşirelerine sunulmuştur. Elde edilen AŞİ ve renkli triyaj skorları, deneyimli acil tıp doktorları tarafından belirlenen altın standart kararlarla karşılaştırılmış; analizlerde doğruluk, F1 skoru, Cohen's Kappa, ağırlıklı (quadratic) Kappa, ROC eğrisi (AUC) ve çapraz analiz gibi performans ölçütleri kullanılmıştır. BULGULAR: Renkli triyaj sisteminde, deneyimli triyaj hemşiresi GPT-4o ve Gemini modellerine kıyasla daha yüksek doğruluk ve uyum göstermiştir. Yeşil ve kırmızı kategorilerde her üç değerlendirme uyumlu olsa da, sarı kodda YZ modellerinde belirgin sınıflandırma hataları gözlenmiştir. AŞİ sisteminde ise GPT-4o ve Gemini, özellikle AŞİ 1–2 kategorilerinde başarılı sonuçlar vermiştir; ancak orta düzey aciliyetli hastalarda over-triyaj eğilimi dikkat çekmiştir. LLM'nin özellikle AŞİ 3 ile sarı kod arasında kararsızlık yaşadığı, bu gruplarda deneyimli hemşirelerin daha dengeli sınıflandırmalar yaptığı görülmüştür. SONUÇ: GPT-4o ve Gemini 2.0 Flash modelleri, acil servis triyajında özellikle yüksek ve düşük aciliyet düzeylerinde umut verici performans göstermektedir. Bununla birlikte, orta aciliyet düzeyindeki vakalarda deneyimli sağlık personellerinin klinik sezgi ve durumsal farkındalıklarına dayalı kararları, YZ'ya göre üstünlük göstermeye devam etmektedir. Bu nedenle mevcut LLM, sağlık personeline destek sunabilecek bir araç olarak değerlendirilebilir.

Özet (Çeviri)

INTRODUCTION: Accurate and rapid triage in emergency departments is critical for effective patient management. In recent years, large language models (LLMs) based on artificial intelligence (AI) have received increasing attention as clinical decision support tools in healthcare. This study aimed to evaluate the performance of GPT-4o and Gemini 2.0 Flash in the Emergency Severity Index (ESI) and color-coded triage systems by comparing them to the decisions of experienced triage nurses and gold standard classifications determined by emergency physicians. The objective was to determine the accuracy of LLM-based triage and to identify their strengths and limitations in comparison with experienced healthcare professionals. MATERIALS AND METHODS: This single-center, cross-sectional, and comparative observational study was conducted with data from 11,061 patients who presented to the emergency department between 01.09.2024 and 01.10.2024. Structured patient information, including age, gender, chief complaint, vital signs, and comorbidities, was presented to GPT-4o, Gemini 2.0 Flash, and experienced triage nurses. The ESI and color-coded triage scores obtained were compared with the gold standard classifications made by senior emergency physicians. Model performance was evaluated using accuracy, F1 score, Cohen's Kappa, weighted (quadratic) Kappa, receiver operating characteristic curve (AUC), and cross-tabulation analyses. RESULTS: In the color-coded triage system, the experienced triage nurse demonstrated higher accuracy and agreement compared to GPT-4o and Gemini. While there was consistency among all three evaluators in the green and red categories, significant classification errors were observed in the yellow category by AI models. In the ESI system, GPT-4o and Gemini performed well particularly in high-acuity groups (ESI 1–2); however, a tendency toward over-triage was noted in moderate-acuity cases. LLMs appeared to experience uncertainty especially between ESI level 3 and the yellow code, where experienced nurses achieved more balanced classifications. CONCLUSION: GPT-4o and Gemini 2.0 Flash demonstrated promising performance in emergency triage, especially in high- and low-acuity categories. However, in moderate-acuity cases, the clinical intuition and situational awareness of experienced healthcare personnel still offer a distinct advantage over AI. Therefore, current LLMs may serve as supportive tools for healthcare providers, rather than stand-alone decision-makers.

Benzer Tezler

  1. Yapay zeka büyük dil modellerinin diz osteoartriti fizyoterapi ve rehabilitasyonundaki kullanılabilirliğinin incelenmesi

    Investigation of the usability of artificial intelligence large language models in physiotherapy and rehabilitation of knee osteoarthritis

    ÖMER ALPEREN GÜRSES

    Doktora

    Türkçe

    Türkçe

    2025

    Fizyoterapi ve RehabilitasyonKırşehir Ahi Evran Üniversitesi

    Fizyoterapi ve Rehabilitasyon Ana Bilim Dalı

    DOÇ. DR. ANIL ÖZÜDOĞRU

    DR. ÖĞR. ÜYESİ CANER KARARTI

  2. A comparative analysis of AI-tools and English teachers in writing assessment

    İngilizce yazılı metinlerin yapay zekâ ve İngilizce öğretmenleri tarafından değerlendirilmesinin karşılaştırmalı analizi

    BERKAY İSMAİL NACAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eğitim ve ÖğretimBolu Abant İzzet Baysal Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DOÇ. DR. SEDAT AKAYOĞLU

  3. Over kanserinde görüntü tabanlı olarak rezektabiliteyi değerlendirmede yapay zekanın potansiyelinin araştırılması

    Investigation of the potential of artificial intelligence in imaging-based assessment of resectability in ovarian cancer

    SERAY TAK AKSOY

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2025

    Kadın Hastalıkları ve DoğumAkdeniz Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    DOÇ. DR. HASAN AYKUT TUNCER

  4. Kliniğimizde histerektomi planlanan hastaların endikasyonlarının yapay zekâ programının önerileri ile karşılaştırılması

    Comparison of indications for hysterectomy in our clinic with recommendations of the artificial intelligence program

    SALTUK BUĞRA ARIKAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Bilim ve TeknolojiAkdeniz Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    DOÇ. DR. MAHMUT İLKİN YERAL

  5. Metinden görüntüye yapay zekâ sistemlerinin iç mimari tasarıma katkısının değerlendirilmesi

    Evaluation of the contribution of text-to-image ai systems to interior design

    MUHTEREM HOŞER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Sabahattin Zaim Üniversitesi

    Mimarlık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE GÜL GEMCİ

    DR. ERDEM KÖYMEN