Comparing scores, quality, and difficulty of AI-generated and human-designed reading comprehension tests for EFL students

Yabancı dil olarak ingilizce öğrenen öğrenciler için yapay zeka tarafından oluşturulan ve insan tarafından oluşturulan okuduğunu anlama testlerinin puanları, kalitesi ve zorluk düzeylerinin karşılaştırılması

PDF İndir

Tez No: 952397
Yazar: ŞEVVAL KURT
Danışmanlar: DR. ÖĞR. ÜYESİ ZEYNEP BANU KOÇOĞLU
Tez Türü: Yüksek Lisans
Konular: Dilbilim, Eğitim ve Öğretim, Linguistics, Education and Training
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Yeditepe Üniversitesi
Enstitü: Eğitim Bilimleri Enstitüsü
Ana Bilim Dalı: İngiliz Dili Eğitimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 228

Özet

Bu çalışma, yapay zeka (YZ) modelleri tarafından oluşturulan okuduğunu anlama testlerinin psikometrik özelliklerini, güvenirliğini, geçerliğini ve madde düzeyindeki kalitesini insan yapımı bir TOEFL okuma testi ile karşılaştırarak incelemektedir. Beş ayrı oturum boyunca, öğrenci grupları insan yapımı bir TOEFL testi veya ChatGPT, Claude ve Perplexity tarafından üretilen YZ tabanlı testlerden birini tamamlamıştır. Araştırmada, nicel analizler (Mann-Whitney U testleri, madde güçlük ve madde ayırt edicilik hesaplamaları) ile nitel uzman değerlendirmelerini (alt beceri uyumu, içerik geçerliği ve madde yazım kurallarına uygunluk) bir araya getiren karma yöntem araştırma deseni kullanılmıştır. Bulgular, insan yapımı TOEFL testinin psikometrik açıdan istikrarlı bir şekilde üstün performans sergilediğini, daha yüksek güvenirlik, dengeli güçlük seviyeleri ve güçlü ayırt edicilik indeksleri gösterdiğini ortaya koymuştur. Buna karşılık, YZ tarafından oluşturulan testler daha fazla değişkenlik göstermiş; bazı maddeler kabul edilebilir ölçütleri karşılarken, diğerlerinde yanıltıcı seçeneklerin yetersizliği, soru köklerinde belirsizlik ve alt beceri uyumsuzlukları gibi eksiklikler gözlemlenmiştir. Bulgular, mevcut literatürle paralel olarak, YZ modellerinin yüzey düzeyinde geçerli maddeler üretebilse de bilişsel bütünlük ve psikometrik sağlamlık açısından eksiklikler taşıdığını ortaya koymaktadır. Bu çalışma, YZ tarafından oluşturulan çoktan seçmeli okuduğunu anlama testlerinin etkililiğini ve kalitesini, insan tarafından tasarlanmış testlerle karşılaştırarak incelemektedir. Çalışma, YZ ile üretilen maddelerin potansiyelini ve mevcut sınırlılıklarını ortaya koyarak, yüksek riskli okuduğunu anlama sınavlarında test uygulamalarının geliştirilmesine yönelik önemli çıkarımlar sunmaktadır.

Özet (Çeviri)

This study investigates the psychometric properties, reliability, validity, and item-level quality of reading comprehension tests generated by artificial intelligence (AI) models compared to a human-designed TOEFL reading test. Across five separate sessions, student groups completed one of four different test types: a human-designed TOEFL test or AI-generated tests created by ChatGPT, Claude, and Perplexity. A mixed-methods research design was employed, combining quantitative analysis, including Mann-Whitney U tests, item facility (IF) and item discrimination (ID) calculations with qualitative expert evaluations assessing subskill alignment, content validity, and item-writing guideline adherence. Results demonstrated that the human-designed TOEFL test consistently exhibited superior psychometric performance, with higher reliability, balanced difficulty, and stronger discrimination indices across items. In contrast, AI-generated tests showed greater variability, with some items displaying acceptable metrics while others revealed deficiencies such as distractor implausibility, stem ambiguity, and subskill misalignment. These findings align with recent literature indicating that while AI models can generate assessment items with surface-level validity, they often lack deeper cognitive coherence and psychometric robustness. The study explores the effectiveness and quality of AI-generated multiple-choice reading comprehension tests by comparing them with human-designed versions. It highlights both the potential and current limitations of AI-generated items, offering insights for improving testing practices in high-stakes reading comprehension assessments.

Benzer Tezler

Tez No
352224
Eğitimde ölçme ve değerlendirme kriterlerine uygun Web tabanlı uzman sınav sistemi geliştirilmesi
Development of a Web based intelligent examination system according to measurement and evaluation criteria in education
İRFAN ŞİMŞEK
Doktora
Türkçe
2013
Bilim ve Teknoloji İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
PROF. DR. MEHMET ERDAL BALABAN
YRD. DOÇ. DR. HATİCE ERGİN
Tez No
680595
Çocuklar için yaşam kalitesi ölçeğinin 13-24 aylık bebek formunun Türkçe geçerlik ve güvenirliği
Psychometric properties of Turkish pediatric quality of life inventory infant scales in 13-24 months old infants
YASEMİN DEMİRCİ
Tıpta Uzmanlık
Türkçe
2021
Psikiyatri Karadeniz Teknik Üniversitesi
Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı
YRD. DOÇ. SAMİYE ÇİLEM BİLGİNER
Tez No
516715
Yaşlı gonartrozlu hastalarda total diz protezinin yaşam kalitesi üzerine etkisinin belirlenmesi
Determination the effect of total knee arthroplasty on quality of life of old patients with gonarthrosis
SELDA TIRAŞ
Yüksek Lisans
Türkçe
2018
Halk Sağlığı İstanbul Medipol Üniversitesi
Hemşirelik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NİHAL SUNAL
Tez No
665037
Akdeniz Üniversitesi 2019 Yabancı Öğrenci Seçme Sınavının (YÖS) başarı puanları açısından değerlendirilmesi
Evaluation of Akdeniz University 2019 Foreign Student Selection Exam (YÖS) in terms of success points
ERHAN ÇATAL
Yüksek Lisans
Türkçe
2021
Eğitim ve Öğretim Akdeniz Üniversitesi
Eğitim Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. ALPER SİNAN
Tez No
428863
Genel anestezi altında yapılan ağız ve diş tedavilerinin zihinsel engelli hastaların ağız sağlığı ile ilişkili yaşam kalitesi üzerindeki etkisi
Impact of general anesthesia on the oral health related quality of life of patients with intellectual and developmental disabilities
EKİN KENCİ
Diş Hekimliği Uzmanlık
Türkçe
2016
Diş Hekimliği Çukurova Üniversitesi
Pedodonti Ana Bilim Dalı
PROF. MUHARREM CEM DOĞAN

Geri Dön