Geri Dön

Yapay zeka tabanlı büyük dil modellerinin 0-24 ay bebek sağlığı konusunda sık sorulan sorulara yanıtlarının değerlendirilmesi

Evaluation of artificial intelligence-based large language models' responses to frequently asked questions about infant health in the 0-24 month age range

  1. Tez No: 967716
  2. Yazar: MELİH KIRAN
  3. Danışmanlar: DR. İREP KARATAŞ ERAY
  4. Tez Türü: Tıpta Uzmanlık
  5. Konular: Aile Hekimliği, Family Medicine
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Sağlık Bilimleri Üniversitesi
  10. Enstitü: Ankara Bilkent Şehir Hastanesi
  11. Ana Bilim Dalı: Aile Hekimliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

Amaç: Yapay zekâ tabanlı büyük dil modellerinin (LLM'ler) 0–24 ay bebek sağlığına dair ebeveynler tarafından sıkça sorulan sorulara verdikleri yanıtların doğruluğunu değerlendirmektir. Çalışma, yalnızca model performansını ortaya koymakla kalmayıp aynı zamanda aile hekimliğinin sağlam çocuk izlemi ve ebeveyn danışmanlığı alanındaki rolünü temel alarak, bu bağlamda literatüre özgün katkı sağlamayı hedeflemektedir. Gereç ve Yöntem: Çalışmada, T.C. Sağlık Bakanlığı Halk Sağlığı Genel Müdürlüğü'nün Bebek, Çocuk, Ergen İzlem Protokolleri ve tektiklabilgielinde.saglik.gov.tr temel alınarak ebeveynlerin en sık yönelttiği 25 soru belirlenmiştir. Bu sorular, ChatGPT (ücretsiz sürüm, plus sürüm), Google Gemini (ücretsiz sürüm, advanced sürüm), Claude (ücretsiz sürüm, pro sürüm) ve Microsoft Copilot (ücretsiz sürüm, pro sürüm) modellerine yöneltilmiştir. Yanıtlar, aile hekimliği anabilim dalından bir öğretim üyesi, bir uzman ve bir asistan hekim olmak üzere üç değerlendirici tarafından 4'lü Likert ölçeği (0–3) ile puanlanmıştır. Modeller arası karşılaştırmalar için tanımlayıcı istatistikler kullanılmış, değerlendiriciler arası uyum intraclass correlation coefficient (ICC) ile analiz edilmiştir. Bulgular: ChatGPT ücretli sürümü, üç değerlendiricinin ortak görüşüne göre en yüksek doğruluk puanına ulaşmıştır. Gemini modelleri orta-yüksek doğruluk düzeyi gösterirken, Claude modellerinde yanıt kalitesinde değişkenlik saptanmıştır. Copilot, özellikle ücretli sürümünde bazı kritik sorularda tüm değerlendiricilerden en düşük doğruluk oranını almıştır. ICC analizi, değerlendiriciler arasında genel olarak iyi düzeyde uyum bulunmuştur. Sonuç: Çalışmamız, büyük dil modellerinin (LLM'ler) 0-24 ay bebek sağlığı konusunda genel olarak umut verici doğruluk düzeyi sergilediğini, ancak tüm modellerde eksiklikler ile tamamen hatalı yanıtların da bulunduğunu göstermektedir. Bulgular, bu sistemlerin aile hekimliği uygulamalarında destekleyici araçlar olabileceğini, ancak ebeveyn danışmanlığında hekim onayı olmadan kullanılmalarının klinik açıdan riskler taşıdığını ortaya koymuştur. LLM'lerin ulusal protokoller ve kanıta dayalı kılavuzlarla uyumlu şekilde geliştirilmesi, klinik güvenliği artırarak yanlış yönlendirmelerin önlenmesine katkı sağlayacaktır.

Özet (Çeviri)

Aim: To evaluate the accuracy of responses provided by artificial intelligence-based large language models (LLMs) to frequently asked questions by parents regarding infant health in the 0–24 month age range. The study aims not only to reveal model performance but also to make an original contribution to the literature in this context, based on the role of family medicine in well-child monitoring and parental counseling. Materials and Methods: In the study, the 25 questions most frequently asked by parents were identified based on the Infant, Child, and Adolescent Monitoring Protocols of the Turkish Ministry of Health's General Directorate of Public Health and tektiklabilgielinde.saglik.gov.tr. These questions were directed to ChatGPT (free version, plus version), Google Gemini (free version, advanced version), Claude (free version, pro version), and Microsoft Copilot (free version, pro version) models. The responses were rated on a 4-point Likert scale (0–3) by three evaluators: a faculty member, a specialist, and an assistant physician from the Department of Family Medicine. Descriptive statistics were used for inter-model comparisons, and inter-rater agreement was analyzed using the intraclass correlation coefficient (ICC). Results: The paid version of ChatGPT achieved the highest accuracy score according to the consensus of the three evaluators. Gemini models showed a medium-high level of accuracy, while Claude models exhibited variability in response quality. Copilot, especially in its paid version, received the lowest accuracy rate from all evaluators on some critical questions. ICC analysis showed a generally good level of agreement among evaluators. Conclusion: Our study shows that large language models (LLMs) generally exhibit promising accuracy levels regarding infant health in the 0-24 month age range, but all models also contain inaccuracies and completely incorrect responses. The findings suggest that these systems could serve as supportive tools in family medicine practices, but their use in parental counseling without physician approval carries clinical risks. Developing LLMs in alignment with national protocols and evidence-based guidelines will contribute to preventing misdirection by enhancing clinical safety.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Yapay zeka programlarının (ChatGPT ve Gemini) Aciliyet Şiddeti İndeksi (AŞİ) ve renk kodlu kombine triyaj uygulamasındaki etkinlikleri

    Effectiveness of artificial intelligence programs (ChatGPT and Gemini) in the Emergency Severity Index (ESI) and color-coded combined triage application

    OĞUZHAN YILMAZ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2025

    Acil TıpSağlık Bilimleri Üniversitesi

    Acil Tıp Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGEN GÖNENÇ ÇEKİÇ

  3. Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı

    Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy

    MEHMET ÇAĞRI ÇALIŞKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar Üniversitesi

    Yapay Zeka Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKALP TULUM

  4. Sentiment-driven forecasting of short-term asset price directions using large language models

    Büyük dil modelleri kullanarak varlık fiyatlarının kısa vadeli yönlerinin duygu odaklı tahmini

    AHMET BERKAY GÜLTEKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  5. Mobil uygulama ile derin öğrenme tabanlı nesne tespiti ve büyük dil modeli ile ifade üretme

    Deep learning-based object detection with mobile application and expression generation using a large language model

    NURCİHAN DERE

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KAZIM YILDIZ

    DOÇ. DR. ÖNDER DEMİR