Geri Dön

AI-assisted assessment of ESL writing: University instructor perceptions & human-AI scoring correlations

Yapay zeka desteği ile İngilizce yazma değerlendirmesi: Üniversite öğretim elemanlarının görüşleri ve insan-YZ puanlama korelasyonları

  1. Tez No: 961565
  2. Yazar: BERKAY YİĞİT
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ALİ İLYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Sakarya Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yabancı Diller Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: İngiliz Dili Eğitimi Bilim Dalı
  13. Sayfa Sayısı: 127

Özet

Bu tez, İngilizce yazma değerlendirmelerine yapay zeka (YZ) araçlarının entegrasyonunu, üniversite öğretim elemanlarının görüşlerini ölçen bir anket çalışması ve insan ile YZ puanlamalarının ilişkisel analizi olmak üzere iki birbirini tamamlayan çalışma aracılığıyla ele almaktadır. İlk olarak, kesitsel bir anket ile (N = 96) ChatGPT ve Grammarly gibi genel amaçlı YZ araçlarının yaygın kullanımını, bu araçlara yönelik güven düzeylerini, algılanan etkinliklerini, etik kaygılarını ve gelecek beklentilerini ortaya koymuştur. Sonuçlarda %82'lik yüksek bir benimseme oranı, dilbilgisi ve organizasyon geri bildirimine ilişkin orta düzeyde güven, ancak puanlama kapasitesi, etik boyutlar ve insan denetiminin gerekliliği hususunda belirgin çekinceler olduğu gözlemlenmiştir. İkinci olarak, 4 insan değerlendirici ile 25 YZ araçlarının İngilizce (ikinci dil olarak, ESL) kullanılarak yazılan 60 tartışmacı kompozisyonlara verdikleri puanlar Krippendorff alfa (Ka), sınıf-içi korelasyon (ICC2k), eşleştirilmiş t-testler, Wilcoxon işaretli sıralı testleri ile Pearson (Pr) ve Spearman (Sρ) korelasyon katsayıları kullanılarak incelenmiştir. İnsan değerlendiriciler mükemmel değerlendiriciler-arası güvenirlik (Ka > 0.7; ICC2k > 0.94), ancak YZ araçları orta düzeyde değerlendiriciler-arası güvenirlik sergilemiştir (Ka ≤ 0.5; ICC2k > 0.94). YZ puanları, insan ortalamaları ile orta ila güçlü korelasyon göstermiştir (Pr ∈ [0.51, 0.65]; Sρ ∈ [0.52, 0.64]), ancak tüm kriterlerde ortalama 0,5 ile 1 puan arası, toplam puanda ise ortalama 2,5 puan düşük vermiştir (p < 0.001; Cohen's d ∈ [-0.98, -0.47]) ve bu araçlar arasında OpenAI o3-mini en yüksek Pr değerlerini elde etmiştir. Bu bulgular, güncel YZ araçlarının yazılı değerlendirmede insan kararlarına yaklaşabildiğini ancak sistematik yanılma ve sınırlı yapı geçerliliği taşıdığını ortaya koyarken, yüksek riskli dil değerlendirmelerinde YZ'nin insan denetimini tamamlayıcı, etik önlemler ve sürekli doğrulama gerektiren bir rol üstlenmesi gerekliliğini vurgulamaktadır.

Özet (Çeviri)

This thesis investigates the integration of artificial intelligence (AI) into English writing assessment through two interconnected studies: a survey of university instructors' perspectives and a correlational analysis of human and AI scoring of argumentative English as a Second Language (ESL) essays. First, a cross-sectional survey (N = 96) captured instructors' usage patterns, trust, perceived effectiveness, ethical concerns, and future outlook regarding AI tools. Usage of general purpose AI tools such as ChatGPT and Grammarly were prevalent. The survey additionally revealed high adoption (82%), moderate confidence in AI feedback for grammar and organization, but considerable reservations about AI's grading capacity, ethical implications, and the necessity of sustained human oversight. Second, a correlational design examined scores assigned by 4 human raters and 25 AI tools on 60 argumentative ESL essays, employing Krippendorff's alpha (Ka), intraclass correlation coefficient (ICC2k), paired t-tests, Wilcoxon signed-rank tests, and Pearson (Pr) and Spearman (Sρ) correlation coefficients. Human raters demonstrated excellent inter-rater reliability (Ka > 0.7; ICC2k > 0.94), while AI tools showed moderate inter-rater reliability (Ka ≤ 0.5; ICC2k > 0.94). AI scores correlated moderately to strongly with human means (Pr ∈ [0.51, 0.65]; Sρ ∈ [0.52, 0.64]) but systematically under-scored by approximately 0.5 to 1 points on all criteria and 2.5 points on total score (p < 0.001; Cohen's d ∈ [-0.98, -0.47]). Among AI tools, OpenAI o3-mini assigned scores which consistently achieved strong correlation with human scores. These findings suggest that, although contemporary AI tools can approximate human judgment in writing assessment, it exhibits systematic bias and limited construct validity. The study underscores the importance of human and AI collaboration, ethical safeguards, and ongoing validation when deploying AI for high-stakes language assessment, pointing to a complementary role for AI that enhances efficiency without displacing human oversight.

Benzer Tezler

  1. Temel tasarım eğitiminde yapay zekâ destekli bir değerlendirme asistanı önerisi: Luna

    A proposal for an ai-assisted evaluation assistant in basic design education: Luna

    ÇİĞDEM DÜZGÜNEŞ SÜNGÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    MimarlıkYıldız Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. TOGAN TONG

  2. Yapay zeka destekli yazılımlarla tasarlanmış indirekt restorasyonların çok yönlü değerlendirilmesi

    Comprehensive assessment of indirect restorations designed by artificial inteligence-powered software systems

    NEŞE EZGİ KARAOĞLAN

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2025

    Diş HekimliğiMarmara Üniversitesi

    Restoratif Diş Tedavisi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜLÇİN BİLGİN GÖÇMEN

  3. Öğretmenlerin teknolojik pedagojik alan bilgisi hazır bulunuşluk ve yapay zekâ eğitimine yönelik tutum ölçeklerinin yapay zekâ destekli dilsel uyarlama, geçerlik ve güvenirlik çalışması

    Artificial intelligence assisted linguistic adaptation, validity and reliability study of teachers' technological pedagogical content knowledge readiness and attitude scales towards artificial intelligence education

    SULTAN BURCU TÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilim ve TeknolojiGazi Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    PROF. DR. YÜKSEL ALTUN

  4. Derin öğrenme modellerinin desteği ile distal radius kırıklarının tanımlanması ve konservatif tedavi kriterlerinin değerlendirilmesi

    Identification of distal radius fractures and evaluation of conservative treatment criteria with the support of deep learning models.

    MEHMET SARACALIOĞLU

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2025

    Ortopedi ve TravmatolojiVan Yüzüncü Yıl Üniversitesi

    Ortopedi ve Travmatoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ŞEHMUZ KAYA

  5. Mesane kanseri tur materyallerinin histopatolojik değerlendirmesinde yapay zekanın rutine katkısı

    The role of artificial intelligence in the workflow of histopathological evaluation of bladder cancer in transurethral resection specimens

    NACİYE BETÜL BARUT

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2025

    Patolojiİstanbul Üniversitesi

    Patoloji Ana Bilim Dalı

    PROF. DR. MESUDE YASEMİN ÖZLÜK