Çok Yüzeyli Rasch Modeli puanlama desenlerine göre açık uçlu maddelerin puanlayıcılar arası güvenirliklerinin karşılaştırılması

Comparison of inter-rater reliability of open-ended items according to Many Facet Rasch Model rating designs

PDF İndir

Tez No: 708236
Yazar: ZEYNEP GÖLCÜR
Danışmanlar: PROF. DR. İSMAİL KARAKAYA
Tez Türü: Yüksek Lisans
Konular: Eğitim ve Öğretim, Education and Training
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Eğitim Bilimleri Enstitüsü
Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
Sayfa Sayısı: 190

Özet

Bu çalışma matematik başarı testindeki açık uçlu maddeleri özel bütünsel dereceli puanlama anahtarı ile puanlayan puanlayıcılar arası güvenirliği çok yüzeyli Rasch modeli puanlama desenlerine göre karşılaştırarak güvenilir ve kullanışlı bir puanlama deseni ortaya koymayı amaçlamıştır. Ankara'daki devlet okullarının sekizinci sınıfında öğrenim gören 137 öğrenciye uygulama yapılmıştır. Başarı testi, ikisi PISA 2012 matematik testi pilot uygulama sorusu olmak üzere 11 maddeden oluşmuştur. Araştırmacı tarafından hazırlanan dokuz açık uçlu maddenin ve maddelere ilişkin özel bütünsel puanlama anahtarlarının kapsam geçerliğini kontrol etmek için uzman değerlendirme formu oluşturularak bir ölçme değerlendirme ve beş matematik alan uzmanından görüş alınmıştır. Belirtke tablosunda belirtilen kazanımlara ve bilişsel düzeylere uygun iyi maddeler hazırlandığı konusunda görüş birliğine varılmıştır. Açık uçlu maddelerin ve dereceli puanlama anahtarının her madde için hesaplanan kapsam geçerlik indeksi değerinin kapsam geçerlik ölçütü değeri 0,800 (N=6 ve α=0,05)'den büyük olduğu, kapsam geçerliklerinin sağlandığı görülmüştür. Matematik başarı testinin uygulanmasından elde edilen verilerle açımlayıcı faktör analizi yapılmıştır. Analiz sonucunda maddeler iki faktörde kümelenmiş, birinci faktörün açıkladığı varyans oranının %43,522 bulunması matematik başarı testinin tek faktörlü bir yapı oluşturabileceğini göstermiştir. Daha sonra doğrulayıcı faktör analizi yapılmış tek faktörlü yapı doğrulanmıştır. Güvenirlik katsayısı ω değeri 0,886 bulunmasıyla açık uçlu maddelerin, dereceli puanlama anahtarının puanlama güvenirliğinin sağlandığı görülmüştür. Öğrenci cevapları dört matematik öğretmeni tarafından birbirlerinden bağımsız olarak puanlanmış, veriler analiz edilmiştir. Eckes (2015)'in tanımladığı çok yüzeyli Rasch modeli puanlama desenlerinden tamamen çaprazlanmış puanlama deseni (Desen A), tamamlanmamış - bağlantılı puanlama deseni (Desen B ve C), tamamlanmamış - bağlantılı olmayan puanlama deseni (Desen D), tamamlanmamış - bağlantılı sarmal puanlama deseni (Desen E), Tharbai ve Young (2001)'ın kullandığı sarmal puanlama deseninin (Desen F) tümünde puanlayıcıların katı puanlama yaptığı, katılık-cömertlik davranışları arasında istatistiksel olarak anlamlı fark olduğu, puanlamaya puanlayıcıdan kaynaklanan hataların karıştığı ve Madde 6'nın güçlüğünün en yüksek olduğu görülmüştür. Tüm desenlerde madde güçlüğü yüksek ve düşük madde gruplarının, logit değerlerinin farklılaşabildiği görülmüştür. Rasch-Cohen'in kappa istatistiği değerleri Desen A, B, C, D, E, F için sırasıyla; 0,65; 0,66; 0,66; 0,93; 0,43; 0,45 bulunmuştur. Puanlayıcıların puanlama anahtarı ölçütleriyle tutarlı puanlama yaptıkları ve puanlayıcılar arası güvenirliğin (uyumun) yüksek olduğu anlaşılmıBu çalışma matematik başarı testindeki açık uçlu maddeleri özel bütünsel dereceli puanlama anahtarı ile puanlayan puanlayıcılar arası güvenirliği çok yüzeyli Rasch modeli puanlama desenlerine göre karşılaştırarak güvenilir ve kullanışlı bir puanlama deseni ortaya koymayı amaçlamıştır. Ankara'daki devlet okullarının sekizinci sınıfında öğrenim gören 137 öğrenciye uygulama yapılmıştır. Başarı testi, ikisi PISA 2012 matematik testi pilot uygulama sorusu olmak üzere 11 maddeden oluşmuştur. Araştırmacı tarafından hazırlanan dokuz açık uçlu maddenin ve maddelere ilişkin özel bütünsel puanlama anahtarlarının kapsam geçerliğini kontrol etmek için uzman değerlendirme formu oluşturularak bir ölçme değerlendirme ve beş matematik alan uzmanından görüş alınmıştır. Belirtke tablosunda belirtilen kazanımlara ve bilişsel düzeylere uygun iyi maddeler hazırlandığı konusunda görüş birliğine varılmıştır. Açık uçlu maddelerin ve dereceli puanlama anahtarının her madde için hesaplanan kapsam geçerlik indeksi değerinin kapsam geçerlik ölçütü değeri 0,800 (N=6 ve α=0,05)'den büyük olduğu, kapsam geçerliklerinin sağlandığı görülmüştür. Matematik başarı testinin uygulanmasından elde edilen verilerle açımlayıcı faktör analizi yapılmıştır. Analiz sonucunda maddeler iki faktörde kümelenmiş, birinci faktörün açıkladığı varyans oranının %43,522 bulunması matematik başarı testinin tek faktörlü bir yapı oluşturabileceğini göstermiştir. Daha sonra doğrulayıcı faktör analizi yapılmış tek faktörlü yapı doğrulanmıştır. Güvenirlik katsayısı ω değeri 0,886 bulunmasıyla açık uçlu maddelerin, dereceli puanlama anahtarının puanlama güvenirliğinin sağlandığı görülmüştür. Öğrenci cevapları dört matematik öğretmeni tarafından birbirlerinden bağımsız olarak puanlanmış, veriler analiz edilmiştir. Eckes (2015)'in tanımladığı çok yüzeyli Rasch modeli puanlama desenlerinden tamamen çaprazlanmış puanlama deseni (Desen A), tamamlanmamış - bağlantılı puanlama deseni (Desen B ve C), tamamlanmamış - bağlantılı olmayan puanlama deseni (Desen D), tamamlanmamış - bağlantılı sarmal puanlama deseni (Desen E), Tharbai ve Young (2001)'ın kullandığı sarmal puanlama deseninin (Desen F) tümünde puanlayıcıların katı puanlama yaptığı, katılık-cömertlik davranışları arasında istatistiksel olarak anlamlı fark olduğu, puanlamaya puanlayıcıdan kaynaklanan hataların karıştığı ve Madde 6'nın güçlüğünün en yüksek olduğu görülmüştür. Tüm desenlerde madde güçlüğü yüksek ve düşük madde gruplarının, logit değerlerinin farklılaşabildiği görülmüştür. Rasch-Cohen'in kappa istatistiği değerleri Desen A, B, C, D, E, F için sırasıyla; 0,65; 0,66; 0,66; 0,93; 0,43; 0,45 bulunmuştur. Puanlayıcıların puanlama anahtarı ölçütleriyle tutarlı puanlama yaptıkları ve puanlayıcılar arası güvenirliğin (uyumun) yüksek olduğu anlaşılmıştır. Açık uçlu maddeleri cevaplandırmada en yüksek ve en düşük beceriye sahip öğrenciler Desen F dışındaki desenlerde aynı öğrencilerden oluşmaktadır. Desen B'nin Desen A ile puanlayıcı sıralamalarının aynı, logit değerlerinin öğrenci, açık uçlu madde yüzeyleri ile dereceli puanlama anahtarı kategorilerine ilişkin ölçüm raporlarının, puanlayıcılar arası güvenirliklerinin oldukça benzer olduğu görülmüştür. Desen F'ye ilişkin ölçüm raporları diğer desenlerden oldukça farklıdır. Desen A ile B'nin benzer Rasch-Cohen'in kappa değerlerinin de benzerlik gösterdiği tüm puanlayıcıların tüm öğrenci cevaplarını puanladığı Desen A yerine daha kullanışlı ve daha az zaman gerektiren dört puanlayıcıdan herhangi üçünün bir öğrenciyi puanladığı Desen B'nin alternatif olarak kullanılabileceği sonucuna ulaşılmıştır.ştır. Açık uçlu maddeleri cevaplandırmada en yüksek ve en düşük beceriye sahip öğrenciler Desen F dışındaki desenlerde aynı öğrencilerden oluşmaktadır. Desen B'nin Desen A ile puanlayıcı sıralamalarının aynı, logit değerlerinin öğrenci, açık uçlu madde yüzeyleri ile dereceli puanlama anahtarı kategorilerine ilişkin ölçüm raporlarının, puanlayıcılar arası güvenirliklerinin oldukça benzer olduğu görülmüştür. Desen F'ye ilişkin ölçüm raporları diğer desenlerden oldukça farklıdır. Desen A ile B'nin benzer Rasch-Cohen'in kappa değerlerinin de benzerlik gösterdiği tüm puanlayıcıların tüm öğrenci cevaplarını puanladığı Desen A yerine daha kullanışlı ve daha az zaman gerektiren dört puanlayıcıdan herhangi üçünün bir öğrenciyi puanladığı Desen B'nin alternatif olarak kullanılabileceği sonucuna ulaşılmıştır.

Özet (Çeviri)

This study aimed to reveal a reliable and useful rating design by comparing the reliability of the open-ended items in the mathematics achievement test with the multi-faceted Rasch model rating designs, which scored with a task-specific holistic rubric. An application was made to 137 students studying in the eighth grade of public schools in Ankara. In order to check the content validity of the nine open-ended items and the task specific holistic rubrics for the items, an expert evaluation form was created and opinions were received from an assessment and evaluation and five mathematics domain experts. It was agreed that good items were prepared in accordance with the acquisitions and cognitive levels specified in the specification table. It was observed that the content validity index value calculated for each item of the open-ended items and rubric was greater than the content validity criterion value of 0,800 (N=6 and α=0,05), and the content validity was achieved. Exploratory factor analysis was performed with the data obtained from the application of the mathematics achievement test. As a result of the analysis, the items were clustered in two factors, and the variance rate explained by the first factor was 43,522%, which showed that the mathematics achievement test could create a single factor structure. Then, confirmatory factor analysis was performed and the single factor structure was confirmed. With the reliability coefficient ω value of 0,886 it was seen that the rating reliability of the open-ended items and the rubric was ensured. Student answers were rated independently by four mathematics teachers, and the data were analyzed. Among the many facet Rasch model rating designs defined by Eckes (2015), fully crossed rating design (Design A), incomplete - connected rating design (Design B), incomplete - unconnected rating design (Design C and D), incomplete – connected spiral rating design (Design E), the spiral rating design (Design F) used by Tharbai and Young (2001) where raters rate severe, there is a statistically significant difference between severity and generosity behaviors, mistakes caused by raters are involved in rating, and the difficulty of item 6 was found to be the highest. It was observed that the item groups with high and low item difficulty and logit values could differ in all designs. Rasch-Cohen's kappa statistic values for Design A, B, C, D, E, F respectively; 0.65; 0.66; 0.66; 0.93; 0.43; 0.45 was found. It was understood that the raters made consistent rating with the rubric criteria and the inter-rater reliability was high. The students with the highest and lowest skills in answering open-ended items consist of the same students in designs other than Design F. It was seen that the order of the raters of Design B was the same with Design A, and the inter-rater reliability of the measurement reports regarding the logit values of the student, open-ended item facets and rubric categories were quite similar. The measurement reports for Design F are quite different from other designs. It has been concluded that Design B, in which three of the four raters score a student, which is more useful and requires less time, can be used as an alternative to Design A, in which all raters score all student answers, with similar Rasch-Cohen's kappa values in Design A and B.

Benzer Tezler

Tez No
931764
Farklı eğitim desenlerine göre verilen çevrim içi puanlayıcı eğitiminin puanlama davranışları üzerine etkisinin incelenmesi
An examination of the effect of online rater training based on different educational designs on rating behaviors
NAZIRA TURSYNBAYEVA
Doktora
Türkçe
2025
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. İSMAİL KARAKAYA
Tez No
626117
Performans değerlendirme sürecinde puanlayıcı eğitiminin puanlayıcı davranışları üzerindeki etkisinin incelenmesi
The investigation of the effect of rater training on the rater behaviors in the performance assessment process
MEHMET ŞATA
Doktora
Türkçe
2019
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. İSMAİL KARAKAYA
Tez No
882671
Özel yetenekli öğrencilerin Fen Bilimleri dersindeki laboratuvar etkinliklerinde puanlayıcı güvenirliğinin Çok Yüzeyli Rasch Modeli ile incelenmesi
Examining the rater reliability of specially gifted students in laboratory activities in Science courses with the Many FACET Rasch Model
BAŞAK AKAR
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Gaziantep Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. BAYRAM ÇETİN
Tez No
888971
Açık uçlu soruların puanlanmasında puanlayıcı eğitiminin puanlayıcı davranışlarına etkisinin incelenmesi
Examining the effect of rater training on rater behaviors in scoring open-ended questions
UMUR ÖÇ
Doktora
Türkçe
2024
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. İSMAİL KARAKAYA
Tez No
629923
Performansın değerlendirilmesinde farklılaşan puanlayıcı davranışlarının çok yüzeyli Rasch Ölçme Modeli ile incelenmesi
Examination of the differential rater behaviours in performance evaluation with many facet Rasch Measurement
CENNET TOBAŞ
Yüksek Lisans
Türkçe
2020
Eğitim ve Öğretim Gazi Üniversitesi
Eğitimde Ölçme ve Değerlendirme Ana Bilim Dalı
PROF. DR. İSMAİL KARAKAYA

Geri Dön