Yapay zeka tabanlı büyük dil modellerinin 0-24 ay bebek sağlığı konusunda sık sorulan sorulara yanıtlarının değerlendirilmesi
Evaluation of artificial intelligence-based large language models' responses to frequently asked questions about infant health in the 0-24 month age range
- Tez No: 967716
- Danışmanlar: DR. İREP KARATAŞ ERAY
- Tez Türü: Tıpta Uzmanlık
- Konular: Aile Hekimliği, Family Medicine
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Sağlık Bilimleri Üniversitesi
- Enstitü: Ankara Bilkent Şehir Hastanesi
- Ana Bilim Dalı: Aile Hekimliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 56
Özet
Amaç: Yapay zekâ tabanlı büyük dil modellerinin (LLM'ler) 0–24 ay bebek sağlığına dair ebeveynler tarafından sıkça sorulan sorulara verdikleri yanıtların doğruluğunu değerlendirmektir. Çalışma, yalnızca model performansını ortaya koymakla kalmayıp aynı zamanda aile hekimliğinin sağlam çocuk izlemi ve ebeveyn danışmanlığı alanındaki rolünü temel alarak, bu bağlamda literatüre özgün katkı sağlamayı hedeflemektedir. Gereç ve Yöntem: Çalışmada, T.C. Sağlık Bakanlığı Halk Sağlığı Genel Müdürlüğü'nün Bebek, Çocuk, Ergen İzlem Protokolleri ve tektiklabilgielinde.saglik.gov.tr temel alınarak ebeveynlerin en sık yönelttiği 25 soru belirlenmiştir. Bu sorular, ChatGPT (ücretsiz sürüm, plus sürüm), Google Gemini (ücretsiz sürüm, advanced sürüm), Claude (ücretsiz sürüm, pro sürüm) ve Microsoft Copilot (ücretsiz sürüm, pro sürüm) modellerine yöneltilmiştir. Yanıtlar, aile hekimliği anabilim dalından bir öğretim üyesi, bir uzman ve bir asistan hekim olmak üzere üç değerlendirici tarafından 4'lü Likert ölçeği (0–3) ile puanlanmıştır. Modeller arası karşılaştırmalar için tanımlayıcı istatistikler kullanılmış, değerlendiriciler arası uyum intraclass correlation coefficient (ICC) ile analiz edilmiştir. Bulgular: ChatGPT ücretli sürümü, üç değerlendiricinin ortak görüşüne göre en yüksek doğruluk puanına ulaşmıştır. Gemini modelleri orta-yüksek doğruluk düzeyi gösterirken, Claude modellerinde yanıt kalitesinde değişkenlik saptanmıştır. Copilot, özellikle ücretli sürümünde bazı kritik sorularda tüm değerlendiricilerden en düşük doğruluk oranını almıştır. ICC analizi, değerlendiriciler arasında genel olarak iyi düzeyde uyum bulunmuştur. Sonuç: Çalışmamız, büyük dil modellerinin (LLM'ler) 0-24 ay bebek sağlığı konusunda genel olarak umut verici doğruluk düzeyi sergilediğini, ancak tüm modellerde eksiklikler ile tamamen hatalı yanıtların da bulunduğunu göstermektedir. Bulgular, bu sistemlerin aile hekimliği uygulamalarında destekleyici araçlar olabileceğini, ancak ebeveyn danışmanlığında hekim onayı olmadan kullanılmalarının klinik açıdan riskler taşıdığını ortaya koymuştur. LLM'lerin ulusal protokoller ve kanıta dayalı kılavuzlarla uyumlu şekilde geliştirilmesi, klinik güvenliği artırarak yanlış yönlendirmelerin önlenmesine katkı sağlayacaktır.
Özet (Çeviri)
Aim: To evaluate the accuracy of responses provided by artificial intelligence-based large language models (LLMs) to frequently asked questions by parents regarding infant health in the 0–24 month age range. The study aims not only to reveal model performance but also to make an original contribution to the literature in this context, based on the role of family medicine in well-child monitoring and parental counseling. Materials and Methods: In the study, the 25 questions most frequently asked by parents were identified based on the Infant, Child, and Adolescent Monitoring Protocols of the Turkish Ministry of Health's General Directorate of Public Health and tektiklabilgielinde.saglik.gov.tr. These questions were directed to ChatGPT (free version, plus version), Google Gemini (free version, advanced version), Claude (free version, pro version), and Microsoft Copilot (free version, pro version) models. The responses were rated on a 4-point Likert scale (0–3) by three evaluators: a faculty member, a specialist, and an assistant physician from the Department of Family Medicine. Descriptive statistics were used for inter-model comparisons, and inter-rater agreement was analyzed using the intraclass correlation coefficient (ICC). Results: The paid version of ChatGPT achieved the highest accuracy score according to the consensus of the three evaluators. Gemini models showed a medium-high level of accuracy, while Claude models exhibited variability in response quality. Copilot, especially in its paid version, received the lowest accuracy rate from all evaluators on some critical questions. ICC analysis showed a generally good level of agreement among evaluators. Conclusion: Our study shows that large language models (LLMs) generally exhibit promising accuracy levels regarding infant health in the 0-24 month age range, but all models also contain inaccuracies and completely incorrect responses. The findings suggest that these systems could serve as supportive tools in family medicine practices, but their use in parental counseling without physician approval carries clinical risks. Developing LLMs in alignment with national protocols and evidence-based guidelines will contribute to preventing misdirection by enhancing clinical safety.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Yapay zeka programlarının (ChatGPT ve Gemini) Aciliyet Şiddeti İndeksi (AŞİ) ve renk kodlu kombine triyaj uygulamasındaki etkinlikleri
Effectiveness of artificial intelligence programs (ChatGPT and Gemini) in the Emergency Severity Index (ESI) and color-coded combined triage application
OĞUZHAN YILMAZ
Tıpta Uzmanlık
Türkçe
2025
Acil TıpSağlık Bilimleri ÜniversitesiAcil Tıp Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGEN GÖNENÇ ÇEKİÇ
- Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı
Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy
MEHMET ÇAĞRI ÇALIŞKAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar ÜniversitesiYapay Zeka Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKALP TULUM
- Sentiment-driven forecasting of short-term asset price directions using large language models
Büyük dil modelleri kullanarak varlık fiyatlarının kısa vadeli yönlerinin duygu odaklı tahmini
AHMET BERKAY GÜLTEKİN
Yüksek Lisans
İngilizce
2025
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Mobil uygulama ile derin öğrenme tabanlı nesne tespiti ve büyük dil modeli ile ifade üretme
Deep learning-based object detection with mobile application and expression generation using a large language model
NURCİHAN DERE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. KAZIM YILDIZ
DOÇ. DR. ÖNDER DEMİR