AI-assisted assessment of ESL writing: University instructor perceptions & human-AI scoring correlations
Yapay zeka desteği ile İngilizce yazma değerlendirmesi: Üniversite öğretim elemanlarının görüşleri ve insan-YZ puanlama korelasyonları
- Tez No: 961565
- Danışmanlar: DR. ÖĞR. ÜYESİ ALİ İLYA
- Tez Türü: Yüksek Lisans
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Sakarya Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Yabancı Diller Eğitimi Ana Bilim Dalı
- Bilim Dalı: İngiliz Dili Eğitimi Bilim Dalı
- Sayfa Sayısı: 127
Özet
Bu tez, İngilizce yazma değerlendirmelerine yapay zeka (YZ) araçlarının entegrasyonunu, üniversite öğretim elemanlarının görüşlerini ölçen bir anket çalışması ve insan ile YZ puanlamalarının ilişkisel analizi olmak üzere iki birbirini tamamlayan çalışma aracılığıyla ele almaktadır. İlk olarak, kesitsel bir anket ile (N = 96) ChatGPT ve Grammarly gibi genel amaçlı YZ araçlarının yaygın kullanımını, bu araçlara yönelik güven düzeylerini, algılanan etkinliklerini, etik kaygılarını ve gelecek beklentilerini ortaya koymuştur. Sonuçlarda %82'lik yüksek bir benimseme oranı, dilbilgisi ve organizasyon geri bildirimine ilişkin orta düzeyde güven, ancak puanlama kapasitesi, etik boyutlar ve insan denetiminin gerekliliği hususunda belirgin çekinceler olduğu gözlemlenmiştir. İkinci olarak, 4 insan değerlendirici ile 25 YZ araçlarının İngilizce (ikinci dil olarak, ESL) kullanılarak yazılan 60 tartışmacı kompozisyonlara verdikleri puanlar Krippendorff alfa (Ka), sınıf-içi korelasyon (ICC2k), eşleştirilmiş t-testler, Wilcoxon işaretli sıralı testleri ile Pearson (Pr) ve Spearman (Sρ) korelasyon katsayıları kullanılarak incelenmiştir. İnsan değerlendiriciler mükemmel değerlendiriciler-arası güvenirlik (Ka > 0.7; ICC2k > 0.94), ancak YZ araçları orta düzeyde değerlendiriciler-arası güvenirlik sergilemiştir (Ka ≤ 0.5; ICC2k > 0.94). YZ puanları, insan ortalamaları ile orta ila güçlü korelasyon göstermiştir (Pr ∈ [0.51, 0.65]; Sρ ∈ [0.52, 0.64]), ancak tüm kriterlerde ortalama 0,5 ile 1 puan arası, toplam puanda ise ortalama 2,5 puan düşük vermiştir (p < 0.001; Cohen's d ∈ [-0.98, -0.47]) ve bu araçlar arasında OpenAI o3-mini en yüksek Pr değerlerini elde etmiştir. Bu bulgular, güncel YZ araçlarının yazılı değerlendirmede insan kararlarına yaklaşabildiğini ancak sistematik yanılma ve sınırlı yapı geçerliliği taşıdığını ortaya koyarken, yüksek riskli dil değerlendirmelerinde YZ'nin insan denetimini tamamlayıcı, etik önlemler ve sürekli doğrulama gerektiren bir rol üstlenmesi gerekliliğini vurgulamaktadır.
Özet (Çeviri)
This thesis investigates the integration of artificial intelligence (AI) into English writing assessment through two interconnected studies: a survey of university instructors' perspectives and a correlational analysis of human and AI scoring of argumentative English as a Second Language (ESL) essays. First, a cross-sectional survey (N = 96) captured instructors' usage patterns, trust, perceived effectiveness, ethical concerns, and future outlook regarding AI tools. Usage of general purpose AI tools such as ChatGPT and Grammarly were prevalent. The survey additionally revealed high adoption (82%), moderate confidence in AI feedback for grammar and organization, but considerable reservations about AI's grading capacity, ethical implications, and the necessity of sustained human oversight. Second, a correlational design examined scores assigned by 4 human raters and 25 AI tools on 60 argumentative ESL essays, employing Krippendorff's alpha (Ka), intraclass correlation coefficient (ICC2k), paired t-tests, Wilcoxon signed-rank tests, and Pearson (Pr) and Spearman (Sρ) correlation coefficients. Human raters demonstrated excellent inter-rater reliability (Ka > 0.7; ICC2k > 0.94), while AI tools showed moderate inter-rater reliability (Ka ≤ 0.5; ICC2k > 0.94). AI scores correlated moderately to strongly with human means (Pr ∈ [0.51, 0.65]; Sρ ∈ [0.52, 0.64]) but systematically under-scored by approximately 0.5 to 1 points on all criteria and 2.5 points on total score (p < 0.001; Cohen's d ∈ [-0.98, -0.47]). Among AI tools, OpenAI o3-mini assigned scores which consistently achieved strong correlation with human scores. These findings suggest that, although contemporary AI tools can approximate human judgment in writing assessment, it exhibits systematic bias and limited construct validity. The study underscores the importance of human and AI collaboration, ethical safeguards, and ongoing validation when deploying AI for high-stakes language assessment, pointing to a complementary role for AI that enhances efficiency without displacing human oversight.
Benzer Tezler
- Temel tasarım eğitiminde yapay zekâ destekli bir değerlendirme asistanı önerisi: Luna
A proposal for an ai-assisted evaluation assistant in basic design education: Luna
ÇİĞDEM DÜZGÜNEŞ SÜNGÜ
- Yapay zeka destekli yazılımlarla tasarlanmış indirekt restorasyonların çok yönlü değerlendirilmesi
Comprehensive assessment of indirect restorations designed by artificial inteligence-powered software systems
NEŞE EZGİ KARAOĞLAN
Diş Hekimliği Uzmanlık
Türkçe
2025
Diş HekimliğiMarmara ÜniversitesiRestoratif Diş Tedavisi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLÇİN BİLGİN GÖÇMEN
- Öğretmenlerin teknolojik pedagojik alan bilgisi hazır bulunuşluk ve yapay zekâ eğitimine yönelik tutum ölçeklerinin yapay zekâ destekli dilsel uyarlama, geçerlik ve güvenirlik çalışması
Artificial intelligence assisted linguistic adaptation, validity and reliability study of teachers' technological pedagogical content knowledge readiness and attitude scales towards artificial intelligence education
SULTAN BURCU TÜRK
Yüksek Lisans
Türkçe
2025
Bilim ve TeknolojiGazi ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
PROF. DR. YÜKSEL ALTUN
- Derin öğrenme modellerinin desteği ile distal radius kırıklarının tanımlanması ve konservatif tedavi kriterlerinin değerlendirilmesi
Identification of distal radius fractures and evaluation of conservative treatment criteria with the support of deep learning models.
MEHMET SARACALIOĞLU
Tıpta Uzmanlık
Türkçe
2025
Ortopedi ve TravmatolojiVan Yüzüncü Yıl ÜniversitesiOrtopedi ve Travmatoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞEHMUZ KAYA
- Mesane kanseri tur materyallerinin histopatolojik değerlendirmesinde yapay zekanın rutine katkısı
The role of artificial intelligence in the workflow of histopathological evaluation of bladder cancer in transurethral resection specimens
NACİYE BETÜL BARUT
Tıpta Uzmanlık
Türkçe
2025
Patolojiİstanbul ÜniversitesiPatoloji Ana Bilim Dalı
PROF. DR. MESUDE YASEMİN ÖZLÜK