Geri Dön

Çok Yüzeyli Rasch Modeli puanlama desenlerine göre açık uçlu maddelerin puanlayıcılar arası güvenirliklerinin karşılaştırılması

Comparison of inter-rater reliability of open-ended items according to Many Facet Rasch Model rating designs

  1. Tez No: 708236
  2. Yazar: ZEYNEP GÖLCÜR
  3. Danışmanlar: PROF. DR. İSMAİL KARAKAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
  13. Sayfa Sayısı: 190

Özet

Bu çalışma matematik başarı testindeki açık uçlu maddeleri özel bütünsel dereceli puanlama anahtarı ile puanlayan puanlayıcılar arası güvenirliği çok yüzeyli Rasch modeli puanlama desenlerine göre karşılaştırarak güvenilir ve kullanışlı bir puanlama deseni ortaya koymayı amaçlamıştır. Ankara'daki devlet okullarının sekizinci sınıfında öğrenim gören 137 öğrenciye uygulama yapılmıştır. Başarı testi, ikisi PISA 2012 matematik testi pilot uygulama sorusu olmak üzere 11 maddeden oluşmuştur. Araştırmacı tarafından hazırlanan dokuz açık uçlu maddenin ve maddelere ilişkin özel bütünsel puanlama anahtarlarının kapsam geçerliğini kontrol etmek için uzman değerlendirme formu oluşturularak bir ölçme değerlendirme ve beş matematik alan uzmanından görüş alınmıştır. Belirtke tablosunda belirtilen kazanımlara ve bilişsel düzeylere uygun iyi maddeler hazırlandığı konusunda görüş birliğine varılmıştır. Açık uçlu maddelerin ve dereceli puanlama anahtarının her madde için hesaplanan kapsam geçerlik indeksi değerinin kapsam geçerlik ölçütü değeri 0,800 (N=6 ve α=0,05)'den büyük olduğu, kapsam geçerliklerinin sağlandığı görülmüştür. Matematik başarı testinin uygulanmasından elde edilen verilerle açımlayıcı faktör analizi yapılmıştır. Analiz sonucunda maddeler iki faktörde kümelenmiş, birinci faktörün açıkladığı varyans oranının %43,522 bulunması matematik başarı testinin tek faktörlü bir yapı oluşturabileceğini göstermiştir. Daha sonra doğrulayıcı faktör analizi yapılmış tek faktörlü yapı doğrulanmıştır. Güvenirlik katsayısı ω değeri 0,886 bulunmasıyla açık uçlu maddelerin, dereceli puanlama anahtarının puanlama güvenirliğinin sağlandığı görülmüştür. Öğrenci cevapları dört matematik öğretmeni tarafından birbirlerinden bağımsız olarak puanlanmış, veriler analiz edilmiştir. Eckes (2015)'in tanımladığı çok yüzeyli Rasch modeli puanlama desenlerinden tamamen çaprazlanmış puanlama deseni (Desen A), tamamlanmamış - bağlantılı puanlama deseni (Desen B ve C), tamamlanmamış - bağlantılı olmayan puanlama deseni (Desen D), tamamlanmamış - bağlantılı sarmal puanlama deseni (Desen E), Tharbai ve Young (2001)'ın kullandığı sarmal puanlama deseninin (Desen F) tümünde puanlayıcıların katı puanlama yaptığı, katılık-cömertlik davranışları arasında istatistiksel olarak anlamlı fark olduğu, puanlamaya puanlayıcıdan kaynaklanan hataların karıştığı ve Madde 6'nın güçlüğünün en yüksek olduğu görülmüştür. Tüm desenlerde madde güçlüğü yüksek ve düşük madde gruplarının, logit değerlerinin farklılaşabildiği görülmüştür. Rasch-Cohen'in kappa istatistiği değerleri Desen A, B, C, D, E, F için sırasıyla; 0,65; 0,66; 0,66; 0,93; 0,43; 0,45 bulunmuştur. Puanlayıcıların puanlama anahtarı ölçütleriyle tutarlı puanlama yaptıkları ve puanlayıcılar arası güvenirliğin (uyumun) yüksek olduğu anlaşılmıBu çalışma matematik başarı testindeki açık uçlu maddeleri özel bütünsel dereceli puanlama anahtarı ile puanlayan puanlayıcılar arası güvenirliği çok yüzeyli Rasch modeli puanlama desenlerine göre karşılaştırarak güvenilir ve kullanışlı bir puanlama deseni ortaya koymayı amaçlamıştır. Ankara'daki devlet okullarının sekizinci sınıfında öğrenim gören 137 öğrenciye uygulama yapılmıştır. Başarı testi, ikisi PISA 2012 matematik testi pilot uygulama sorusu olmak üzere 11 maddeden oluşmuştur. Araştırmacı tarafından hazırlanan dokuz açık uçlu maddenin ve maddelere ilişkin özel bütünsel puanlama anahtarlarının kapsam geçerliğini kontrol etmek için uzman değerlendirme formu oluşturularak bir ölçme değerlendirme ve beş matematik alan uzmanından görüş alınmıştır. Belirtke tablosunda belirtilen kazanımlara ve bilişsel düzeylere uygun iyi maddeler hazırlandığı konusunda görüş birliğine varılmıştır. Açık uçlu maddelerin ve dereceli puanlama anahtarının her madde için hesaplanan kapsam geçerlik indeksi değerinin kapsam geçerlik ölçütü değeri 0,800 (N=6 ve α=0,05)'den büyük olduğu, kapsam geçerliklerinin sağlandığı görülmüştür. Matematik başarı testinin uygulanmasından elde edilen verilerle açımlayıcı faktör analizi yapılmıştır. Analiz sonucunda maddeler iki faktörde kümelenmiş, birinci faktörün açıkladığı varyans oranının %43,522 bulunması matematik başarı testinin tek faktörlü bir yapı oluşturabileceğini göstermiştir. Daha sonra doğrulayıcı faktör analizi yapılmış tek faktörlü yapı doğrulanmıştır. Güvenirlik katsayısı ω değeri 0,886 bulunmasıyla açık uçlu maddelerin, dereceli puanlama anahtarının puanlama güvenirliğinin sağlandığı görülmüştür. Öğrenci cevapları dört matematik öğretmeni tarafından birbirlerinden bağımsız olarak puanlanmış, veriler analiz edilmiştir. Eckes (2015)'in tanımladığı çok yüzeyli Rasch modeli puanlama desenlerinden tamamen çaprazlanmış puanlama deseni (Desen A), tamamlanmamış - bağlantılı puanlama deseni (Desen B ve C), tamamlanmamış - bağlantılı olmayan puanlama deseni (Desen D), tamamlanmamış - bağlantılı sarmal puanlama deseni (Desen E), Tharbai ve Young (2001)'ın kullandığı sarmal puanlama deseninin (Desen F) tümünde puanlayıcıların katı puanlama yaptığı, katılık-cömertlik davranışları arasında istatistiksel olarak anlamlı fark olduğu, puanlamaya puanlayıcıdan kaynaklanan hataların karıştığı ve Madde 6'nın güçlüğünün en yüksek olduğu görülmüştür. Tüm desenlerde madde güçlüğü yüksek ve düşük madde gruplarının, logit değerlerinin farklılaşabildiği görülmüştür. Rasch-Cohen'in kappa istatistiği değerleri Desen A, B, C, D, E, F için sırasıyla; 0,65; 0,66; 0,66; 0,93; 0,43; 0,45 bulunmuştur. Puanlayıcıların puanlama anahtarı ölçütleriyle tutarlı puanlama yaptıkları ve puanlayıcılar arası güvenirliğin (uyumun) yüksek olduğu anlaşılmıştır. Açık uçlu maddeleri cevaplandırmada en yüksek ve en düşük beceriye sahip öğrenciler Desen F dışındaki desenlerde aynı öğrencilerden oluşmaktadır. Desen B'nin Desen A ile puanlayıcı sıralamalarının aynı, logit değerlerinin öğrenci, açık uçlu madde yüzeyleri ile dereceli puanlama anahtarı kategorilerine ilişkin ölçüm raporlarının, puanlayıcılar arası güvenirliklerinin oldukça benzer olduğu görülmüştür. Desen F'ye ilişkin ölçüm raporları diğer desenlerden oldukça farklıdır. Desen A ile B'nin benzer Rasch-Cohen'in kappa değerlerinin de benzerlik gösterdiği tüm puanlayıcıların tüm öğrenci cevaplarını puanladığı Desen A yerine daha kullanışlı ve daha az zaman gerektiren dört puanlayıcıdan herhangi üçünün bir öğrenciyi puanladığı Desen B'nin alternatif olarak kullanılabileceği sonucuna ulaşılmıştır.ştır. Açık uçlu maddeleri cevaplandırmada en yüksek ve en düşük beceriye sahip öğrenciler Desen F dışındaki desenlerde aynı öğrencilerden oluşmaktadır. Desen B'nin Desen A ile puanlayıcı sıralamalarının aynı, logit değerlerinin öğrenci, açık uçlu madde yüzeyleri ile dereceli puanlama anahtarı kategorilerine ilişkin ölçüm raporlarının, puanlayıcılar arası güvenirliklerinin oldukça benzer olduğu görülmüştür. Desen F'ye ilişkin ölçüm raporları diğer desenlerden oldukça farklıdır. Desen A ile B'nin benzer Rasch-Cohen'in kappa değerlerinin de benzerlik gösterdiği tüm puanlayıcıların tüm öğrenci cevaplarını puanladığı Desen A yerine daha kullanışlı ve daha az zaman gerektiren dört puanlayıcıdan herhangi üçünün bir öğrenciyi puanladığı Desen B'nin alternatif olarak kullanılabileceği sonucuna ulaşılmıştır.

Özet (Çeviri)

This study aimed to reveal a reliable and useful rating design by comparing the reliability of the open-ended items in the mathematics achievement test with the multi-faceted Rasch model rating designs, which scored with a task-specific holistic rubric. An application was made to 137 students studying in the eighth grade of public schools in Ankara. In order to check the content validity of the nine open-ended items and the task specific holistic rubrics for the items, an expert evaluation form was created and opinions were received from an assessment and evaluation and five mathematics domain experts. It was agreed that good items were prepared in accordance with the acquisitions and cognitive levels specified in the specification table. It was observed that the content validity index value calculated for each item of the open-ended items and rubric was greater than the content validity criterion value of 0,800 (N=6 and α=0,05), and the content validity was achieved. Exploratory factor analysis was performed with the data obtained from the application of the mathematics achievement test. As a result of the analysis, the items were clustered in two factors, and the variance rate explained by the first factor was 43,522%, which showed that the mathematics achievement test could create a single factor structure. Then, confirmatory factor analysis was performed and the single factor structure was confirmed. With the reliability coefficient ω value of 0,886 it was seen that the rating reliability of the open-ended items and the rubric was ensured. Student answers were rated independently by four mathematics teachers, and the data were analyzed. Among the many facet Rasch model rating designs defined by Eckes (2015), fully crossed rating design (Design A), incomplete - connected rating design (Design B), incomplete - unconnected rating design (Design C and D), incomplete – connected spiral rating design (Design E), the spiral rating design (Design F) used by Tharbai and Young (2001) where raters rate severe, there is a statistically significant difference between severity and generosity behaviors, mistakes caused by raters are involved in rating, and the difficulty of item 6 was found to be the highest. It was observed that the item groups with high and low item difficulty and logit values could differ in all designs. Rasch-Cohen's kappa statistic values for Design A, B, C, D, E, F respectively; 0.65; 0.66; 0.66; 0.93; 0.43; 0.45 was found. It was understood that the raters made consistent rating with the rubric criteria and the inter-rater reliability was high. The students with the highest and lowest skills in answering open-ended items consist of the same students in designs other than Design F. It was seen that the order of the raters of Design B was the same with Design A, and the inter-rater reliability of the measurement reports regarding the logit values of the student, open-ended item facets and rubric categories were quite similar. The measurement reports for Design F are quite different from other designs. It has been concluded that Design B, in which three of the four raters score a student, which is more useful and requires less time, can be used as an alternative to Design A, in which all raters score all student answers, with similar Rasch-Cohen's kappa values in Design A and B.

Benzer Tezler

  1. Performans değerlendirme sürecinde puanlayıcı eğitiminin puanlayıcı davranışları üzerindeki etkisinin incelenmesi

    The investigation of the effect of rater training on the rater behaviors in the performance assessment process

    MEHMET ŞATA

    Doktora

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. İSMAİL KARAKAYA

  2. Özel yetenekli öğrencilerin Fen Bilimleri dersindeki laboratuvar etkinliklerinde puanlayıcı güvenirliğinin Çok Yüzeyli Rasch Modeli ile incelenmesi

    Examining the rater reliability of specially gifted students in laboratory activities in Science courses with the Many FACET Rasch Model

    BAŞAK AKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGaziantep Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. BAYRAM ÇETİN

  3. Açık uçlu soruların puanlanmasında puanlayıcı eğitiminin puanlayıcı davranışlarına etkisinin incelenmesi

    Examining the effect of rater training on rater behaviors in scoring open-ended questions

    UMUR ÖÇ

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. İSMAİL KARAKAYA

  4. Performansın değerlendirilmesinde farklılaşan puanlayıcı davranışlarının çok yüzeyli Rasch Ölçme Modeli ile incelenmesi

    Examination of the differential rater behaviours in performance evaluation with many facet Rasch Measurement

    CENNET TOBAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitimde Ölçme ve Değerlendirme Ana Bilim Dalı

    PROF. DR. İSMAİL KARAKAYA

  5. Açık uçlu maddelerin puanlanmasında öğrencilere verilen puanlayıcı eğitiminin puanlayıcı davranışlarına etkisinin Çok Yüzeyli Rasch Ölçme Modeli ile incelenmesi

    Investigation of the effect of rater training given to students on rater behavior in scoring open-ended items using the Multi-facet Rasch Measuring Model

    BURÇİN GÖRGÜLÜ ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. İSMAİL KARAKAYA