Geri Dön

Comparing scores, quality, and difficulty of AI-generated and human-designed reading comprehension tests for EFL students

Yabancı dil olarak ingilizce öğrenen öğrenciler için yapay zeka tarafından oluşturulan ve insan tarafından oluşturulan okuduğunu anlama testlerinin puanları, kalitesi ve zorluk düzeylerinin karşılaştırılması

  1. Tez No: 952397
  2. Yazar: ŞEVVAL KURT
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ZEYNEP BANU KOÇOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Dilbilim, Eğitim ve Öğretim, Linguistics, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Yeditepe Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İngiliz Dili Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 228

Özet

Bu çalışma, yapay zeka (YZ) modelleri tarafından oluşturulan okuduğunu anlama testlerinin psikometrik özelliklerini, güvenirliğini, geçerliğini ve madde düzeyindeki kalitesini insan yapımı bir TOEFL okuma testi ile karşılaştırarak incelemektedir. Beş ayrı oturum boyunca, öğrenci grupları insan yapımı bir TOEFL testi veya ChatGPT, Claude ve Perplexity tarafından üretilen YZ tabanlı testlerden birini tamamlamıştır. Araştırmada, nicel analizler (Mann-Whitney U testleri, madde güçlük ve madde ayırt edicilik hesaplamaları) ile nitel uzman değerlendirmelerini (alt beceri uyumu, içerik geçerliği ve madde yazım kurallarına uygunluk) bir araya getiren karma yöntem araştırma deseni kullanılmıştır. Bulgular, insan yapımı TOEFL testinin psikometrik açıdan istikrarlı bir şekilde üstün performans sergilediğini, daha yüksek güvenirlik, dengeli güçlük seviyeleri ve güçlü ayırt edicilik indeksleri gösterdiğini ortaya koymuştur. Buna karşılık, YZ tarafından oluşturulan testler daha fazla değişkenlik göstermiş; bazı maddeler kabul edilebilir ölçütleri karşılarken, diğerlerinde yanıltıcı seçeneklerin yetersizliği, soru köklerinde belirsizlik ve alt beceri uyumsuzlukları gibi eksiklikler gözlemlenmiştir. Bulgular, mevcut literatürle paralel olarak, YZ modellerinin yüzey düzeyinde geçerli maddeler üretebilse de bilişsel bütünlük ve psikometrik sağlamlık açısından eksiklikler taşıdığını ortaya koymaktadır. Bu çalışma, YZ tarafından oluşturulan çoktan seçmeli okuduğunu anlama testlerinin etkililiğini ve kalitesini, insan tarafından tasarlanmış testlerle karşılaştırarak incelemektedir. Çalışma, YZ ile üretilen maddelerin potansiyelini ve mevcut sınırlılıklarını ortaya koyarak, yüksek riskli okuduğunu anlama sınavlarında test uygulamalarının geliştirilmesine yönelik önemli çıkarımlar sunmaktadır.

Özet (Çeviri)

This study investigates the psychometric properties, reliability, validity, and item-level quality of reading comprehension tests generated by artificial intelligence (AI) models compared to a human-designed TOEFL reading test. Across five separate sessions, student groups completed one of four different test types: a human-designed TOEFL test or AI-generated tests created by ChatGPT, Claude, and Perplexity. A mixed-methods research design was employed, combining quantitative analysis, including Mann-Whitney U tests, item facility (IF) and item discrimination (ID) calculations with qualitative expert evaluations assessing subskill alignment, content validity, and item-writing guideline adherence. Results demonstrated that the human-designed TOEFL test consistently exhibited superior psychometric performance, with higher reliability, balanced difficulty, and stronger discrimination indices across items. In contrast, AI-generated tests showed greater variability, with some items displaying acceptable metrics while others revealed deficiencies such as distractor implausibility, stem ambiguity, and subskill misalignment. These findings align with recent literature indicating that while AI models can generate assessment items with surface-level validity, they often lack deeper cognitive coherence and psychometric robustness. The study explores the effectiveness and quality of AI-generated multiple-choice reading comprehension tests by comparing them with human-designed versions. It highlights both the potential and current limitations of AI-generated items, offering insights for improving testing practices in high-stakes reading comprehension assessments.

Benzer Tezler

  1. Eğitimde ölçme ve değerlendirme kriterlerine uygun Web tabanlı uzman sınav sistemi geliştirilmesi

    Development of a Web based intelligent examination system according to measurement and evaluation criteria in education

    İRFAN ŞİMŞEK

    Doktora

    Türkçe

    Türkçe

    2013

    Bilim ve Teknolojiİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. MEHMET ERDAL BALABAN

    YRD. DOÇ. DR. HATİCE ERGİN

  2. Çocuklar için yaşam kalitesi ölçeğinin 13-24 aylık bebek formunun Türkçe geçerlik ve güvenirliği

    Psychometric properties of Turkish pediatric quality of life inventory infant scales in 13-24 months old infants

    YASEMİN DEMİRCİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2021

    PsikiyatriKaradeniz Teknik Üniversitesi

    Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı

    YRD. DOÇ. SAMİYE ÇİLEM BİLGİNER

  3. Yaşlı gonartrozlu hastalarda total diz protezinin yaşam kalitesi üzerine etkisinin belirlenmesi

    Determination the effect of total knee arthroplasty on quality of life of old patients with gonarthrosis

    SELDA TIRAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Halk Sağlığıİstanbul Medipol Üniversitesi

    Hemşirelik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NİHAL SUNAL

  4. Akdeniz Üniversitesi 2019 Yabancı Öğrenci Seçme Sınavının (YÖS) başarı puanları açısından değerlendirilmesi

    Evaluation of Akdeniz University 2019 Foreign Student Selection Exam (YÖS) in terms of success points

    ERHAN ÇATAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimAkdeniz Üniversitesi

    Eğitim Bilimleri Eğitimi Ana Bilim Dalı

    DOÇ. DR. ALPER SİNAN

  5. Genel anestezi altında yapılan ağız ve diş tedavilerinin zihinsel engelli hastaların ağız sağlığı ile ilişkili yaşam kalitesi üzerindeki etkisi

    Impact of general anesthesia on the oral health related quality of life of patients with intellectual and developmental disabilities

    EKİN KENCİ

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2016

    Diş HekimliğiÇukurova Üniversitesi

    Pedodonti Ana Bilim Dalı

    PROF. MUHARREM CEM DOĞAN