Geri Dön

Yazılı anlatım becerisi puanlama anahtarının güvenirliğinin klasik test, genellenebilirlik ve madde tepki kuramlarına göre incelenmesi

An examination of the reliability estimates of a scroring rubric of a writing skill examination using the classical test theory, generalizability theory and the item response theory models

  1. Tez No: 526944
  2. Yazar: MERVE YILDIRIM SEHERYELİ
  3. Danışmanlar: PROF. DR. ŞEREF TAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 185

Özet

Bu araştırmanın amacı, tesadüfi hatayı en aza indirmek için çalışma alanlarına göre farklılaşan ölçme kuramlarından Klasik Test, Genellenebilirlik ve Madde Tepki Kuramlarının yazılı anlatım becerisi analitik puanlama anahtarı kullanılarak elde edilen ölçümlere ilişkin güvenirlik belirlemedeki yaklaşımlarının incelenmesidir. Betimsel olarak tasarlanan bu çalışmada uygun örnekleme yöntemi ile seçilen beş farklı sınıf seviyesinde toplam 523 öğrenci tarafından yazılan hikâyeler, puanlama anahtarındaki 11 ölçüte göre ve bir Türkçe öğretmeni, beş sınıf öğretmeni, bir ölçme değerlendirme uzmanından oluşan yedi puanlayıcı tarafından puanlanmıştır. Toplanan verilerin güvenirliğinin belirlenmesi için Klasik Test Kuramı'nda SPSS 22 programında puanlayıcıların puanlamaları arasındaki ilişki için Pearson Korelasyon, puanlayıcılar arasındaki uyum için Eta korelasyon, puanlayıcıların puanlamalarındaki iç tutarlılık için Cronbach Alpha katsayılarına bakılmıştır. Genellenebilirlik Kuramı'nda Edu-G 6.1e programı kullanılarak G ve Phi katsayıları hesaplanmıştır. Bu katsayılar her sınıf seviyesinde ve öğrencilerin tamamı analiz edilerek elde edilmiştir. Madde Tepki Kuramı'nda Multilog 7.03 programı kullanılarak Samejima'nın Derecelendirilmiş Tepki modeline göre madde ve test bilgi fonksiyonları ile marjinal güvenirlik katsayıları tek boyutluluk ve yerel bağımsızlık sayıltılarını sağlayan ilk beş puanlayıcı analiz edilerek hesaplanmıştır. Elde edilen güvenirlik kestirimleri arasındaki farkın manidarlığı için ise Microsoft Excel 2010 programında Fisher Z' istatistiği hesaplanmıştır. Klasik Test Kuramı bulgularında Pearson Korelasyon katsayıları incelendiğinde ilk beş puanlayıcı arasındaki katsayılar 0,90'ın üzerinde, altı ve yedinci puanlayıcıların diğer puanlayıcılarla arasındaki korelasyonların daha düşük seviyede (0,60-0,85 arasında) olduğu; Eta korelasyon katsayıları incelendiğinde puanlayıcıların öğrencileri her sınıf seviyesine ve tüm öğrencilere göre puanlamada yüksek uyum gösterdikleri; Cronbach Alfa katsayılarında ise tüm sınıf seviyelerinde ve puanlayıcılarda katsayılar 0,85-0,95 arasında olup altıncı puanlayıcının puanlamalarının iç tutarlığının daha düşük olduğu (0,80-0,90 arasında) bulunmuştur. G ve Phi katsayıları incelendiğinde ise G katsayılarının 0,97'nin üzerinde Phi katsayılarının 0,95'in üzerinde olduğu görülmüştür. Genellenebilirlik Kuramı bulgularına göre, öğrenciler arasında beklenen farklılaşma ortaya çıkmış, ölçütlerin güçlük düzeyleri bir öğrenciden diğerine değişmemiş, puanlayıcılar arasındaki puanlama tutarlılığı mükemmel seviyede (toplam hata varyansını açıklama oranı 0,00) bulunmuştur. Karar çalışmaları katsayıları yükseltmek amacı yerine 0,80'in üzerinde kalacak şekilde ölçüt ve puanlayıcı sayıları düşürülerek gerçekleştirilmiştir. Beş ölçüt ve iki puanlayıcının olduğu karar çalışmalarında en düşük katsayılar 3. sınıflarda G katsayısı 0,83 ve Phi katsayısı 0,79 olarak elde edilmiştir. Madde Tepki kuramı bulgularına göre kestirilen a parametrelerinin (1,24 ile 6,44 arasında) yüksek düzeyde ayırt ediciliğe sahip olduğu görülmüştür. 1 ve 3. puanlayıcılara göre en fazla ayırt edici olan madde 8. ölçüt iken 2, 4 ve 5. puanlayıcılara göre en fazla ayırt edici olan 9. ölçüttür. Ayırt ediciliği en az olan madde ise tüm puanlayıcılara göre 11. ölçüt olarak bulunmuştur. b parametrelerinde ise tüm puanlayıcılar için bireylerin 0,50 ihtimalle 0 kategorisinden daha yüksek puan almaları için en düşük -2,35 yetenek düzeyinde, 1 kategorisinden daha yüksek puan almaları için en düşük -0,80 yetenek düzeyinde, 2 kategorisinden daha yüksek puan almaları için en düşük 0,41 yetenek düzeyinde bulunmaları gerekmektedir. θ yetenek düzeylerinde ise 1. puanlayıcıya göre 3 ve 4. maddeleri; 2, 3, 4 ve 5. puanlayıcılara göre 4. maddeyi gruba göre en düşük yetenek düzeyindeki bireylerin, tüm puanlayıcılara göre 11. maddeyi gruba göre en yüksek yetenek düzeyine sahip bireylerin doğru yanıtlaması beklenmektedir. Test bilgi fonksiyonlarında ise bilgi miktarı arttıkça standart hata azalmaktadır. -1,00 ile 1,50 arasında yeteneğe sahip olan bireyler için ölçme sonuçları daha az hata ile kestirilmiştir. Bu aralıktaki θ değerlerinden uzaklaşıldıkça ölçme sonuçlarının içerdiği hata miktarı da artmaktadır. Marjinal güvenirlik katsayıları incelendiğinde ise güvenirliğin oldukça yüksek (0,93 civarında) olduğu görülmüştür. Tüm güvenirlik kestirimlerinin arasındaki farkın manidarlığı için, sınıf düzeylerine ve tüm öğrencilere ait KTK'de Eta korelasyon katsayıları, Cronbach Alpha katsayılarının ortancaları ile GK'de G ve Phi katsayıları için Fisher Z' testi sonuçlarında α ile G, α ile Phi, G ve Eta, Phi ve Eta katsayıları arasında 0,05 düzeyinde anlamlı bir fark bulunmuştur. Beş puanlayıcıya ait KTK'deki Cronbach Alpha katsayıları ile MTK'deki marjinal güvenirlik katsayıları arasında 0,05 anlamlılık düzeyinde anlamlı bir fark olmadığı tespit edilmiştir. Sonuç olarak hata varyansı kaynaklarını açıklamada ve güvenirlik belirlemede Genellenebilirlik Kuramı, madde bazında hata kestirimlerinde ve yetenek düzeyi belirlemede Madde Tepki Kuramı, Klasik Test Kuramı'ndan daha ayrıntılı bilgiler ortaya koymuştur. Puanlayıcılar arası güvenirlikte ise KTK ile GK'ye göre kestirilen parametreler arasında anlamlı bir fark (p < 0,05) bulunurken; KTK ile MTK'ye göre göre kestirilen parametreler arasında anlamlı bir fark (p < 0,05) saptanmamıştır.

Özet (Çeviri)

The aim of this research is to evaluate the performance of a writing scale rubric and to compare the reliability of the resulting test scores using the Classical Test Theory, Generalizability Theory and the Item Response Theory, each taking a different approach to minimizing random errors. In this study, stories written by 523 students at five different grade levels who were selected by convenient sampling were scored by seven raters including a Turkish Language teacher, five classroom teachers, and a measurement expert using a 11-criteria scoring rubric. Pearson Correlation was calculated to find interrater correlations to determine the reliability of the collected data based on the Classical Test Theory, Eta correlation was used to determine rater reliability and finally Cronbach Alpha coefficient was used to determine the overall internal consistency using SPSS 22 program. G and Phi coefficients were calculated by using Edu-G 6.1e program for Generalizability Theory. These coefficients were computed for each grade level. As for Item Response Theory, based on Samejima's Scaled Response Model, the Multilog 7.03 program was used to estimate item parameters, test information functions and marginal reliability coefficients using ratings data of the first five raters which satisfied the assumptions of unidimensionality and local independence. Fisher Z 'statistic was calculated using the Microsoft Excel 2010 program to test the significance of the differences observed between the resulting reliability estimates. When the Pearson Correlation coefficients of the Classical Test Theory were examined, it was found that the coefficients between the first five scorers were above 0.90 and that the correlations between the sixth and seventh raters were lower (between 0.60-0.85) when compared with the other raters. Eta correlation coefficients showed that the raters had a high level of consistency in scoring according to each grade level and the students; Cronbach's alpha coefficients of raters were between 0,85 and 0,95 within grade levels; the ratings of the sixth rater being the lowest (between 0,80 and 0,90). As for G and Phi coefficients, G coefficients were over 0.97 while the Phi coefficients were over 0.95. According to the findings of Generalizability Theory, the expected differentiation occurred among the students, the difficulty levels of the criteria were not changed from one student to the other, the scoring consistency between the raters was perfect (the explanation ratio of the total error variance was 0.00). Decision studies were carried out by reducing the number of raters and criteria in order to keep the coefficients above 0.80 instead of the increasing the coefficients. The lowest coefficients in the decision studies with five criteria and two raters were obtained in Grade 3 with a G coefficient of 0.83 and a Phi coefficient of 0.79. It was seen that the a parameters estimated from the Item Response Theory findings (between 1.24 and 6.44) had a high level of discrimination. Item 8 was the most distinctive item with respect to raters 1 and 3, while item 9 was the most distinctive according to raters 2, 4, and 5. The item with the least distinctiveness was the 11th criterion according to all the raters. For b-parameters, for all raters should be in at least -2.35 skill level to get a higher score than category 0; at least -0.80 skill level to score higher than category 1; at least 0.41 skill level to score higher than category 2. It was expected that the individuals with the lowest ability level would give the correct answers in θ levels to 3rd and 4th items according to the 1st rater; the 4th item according to the 2nd, 3rd, 4th and 5th raters. The individuals with the highest ability level were expected to answer item 11 correctly according to all the raters. In test information functions, the standard error decreases as the amount of information increases. For individuals who had the ability between -1.00 and 1.50, the measurement results were estimated with fewer errors. As the distance from the θ values in this range decreases, the error amount of the measurement results increases. The reliability was very high in terms of the marginal reliability coefficients (around 0.93). For the purpose of examining the significant difference between the reliability estimates, a significant difference was found at the level of 0,05 between the coefficients of α and G, α and Phi, G and Eta, Phi and Eta as a result of Fisher Z' test with G and Phi in GT and Eta correlation and Cronbach Alpha coefficients in CTT, It was determined that there was no significant difference between the Cronbach Alpha coefficients of the five scorers in the CTT and the marginal reliability coefficients in the IRT at the significance level of 0.05. As a result, while Generalizability Theory can be used to explain sources of error variance and to determine reliability, Item Response Theory and Classical Test Theory are better in terms of error estimates in the item level and determining the ability level. There was a significant difference (p

Benzer Tezler

  1. Ortaokul öğrencilerinin öyküleyici metin yazma becerileri

    Narrative text writing skills of secondary school students

    RASİM TARAKCI

    Doktora

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimGazi Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    PROF. DR. İHSAN KALENDEROĞLU

  2. Dereceli puanlama anahtarına dayalı geribildirimin Türkçenin yabancı dil olarak öğretiminde yazma becerisinin geliştirilmesine etkisi

    The effect of feedback based on analytic scoring rubric to improve writing skills in Turkish as a foreign language

    ALİ OSMAN DURMUŞ

    Doktora

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimAnkara Üniversitesi

    Dilbilim Ana Bilim Dalı

    DOÇ. DR. SILA AY

  3. Yedinci sınıf öğrencilerinin dil bilgisi, kelime bilgisi ve okuduğunu anlama düzeyleri ile yazma becerileri arasındaki ilişki

    The relati̇onshi̇ps between seventh graders' grammar, vocabulary, reading comprehension levels and writing skills

    ERCAN DENİZ

    Doktora

    Türkçe

    Türkçe

    2017

    Eğitim ve Öğretimİnönü Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    PROF. DR. HASAN KAVRUK

  4. Proje tabanlı öğrenme yaklaşımının yazma becerisine ve yazma kaygısına etkisi

    The effect of project based learning aproach on wri̇ti̇ng ski̇lls and writing anxiety

    YUSUF TAŞKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimDumlupınar Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ESRA KARAKUŞ TAYŞİ

  5. Dereceli puanlama anahtarlarının güvenirliğinin farklı deneyim yıllarına sahip puanlayıcıların kullanıldığı durumlarda incelenmesi

    The examination of realiability of scoring rubrics regarding raters with different experience years

    HATİCE ÖZLEM ANADOL

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Eğitim ve ÖğretimAnkara Üniversitesi

    Eğitimde Ölçme ve Değerlendirme Ana Bilim Dalı

    YRD. DOÇ. DR. C. DEHA DOĞAN