İkili puanlanan testlerde yerel madde bağımsızlık varsayımının ihlâlinin test eşitleme yöntemlerine etkisi
The effect of violations of the local item independence assumption on test equating methods in binary scored tests
- Tez No: 832093
- Danışmanlar: PROF. DR. ŞEREF TAN
- Tez Türü: Doktora
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Eğitim Bilimleri Bilim Dalı
- Sayfa Sayısı: 244
Özet
Bu çalışmada, yerel bağımsızlık varsayımının ihlal edilmesi sonucunda bazı maddelerin ikinci bir boyuta yüklenmesinin, tek boyutlu ve ikili puanlanan testlerde farklı test eşitleme yöntemleri ile elde edilen eşitleme hataları üzerindeki etkisinin incelenmesi amaçlanmaktadır. Test eşitleme yöntemlerinin kontrollü bir şekilde değişen koşullar altında simülasyon verileri ile karşılaştırıldığı bir simülasyon araştırma deseni kullanılmıştır. Simülasyon verilerine yansıyan yanıtların gerçekliğini sağlamak için PISA 2018 matematik sınavının birinci formundan elde edilen verilerin dağılımları kullanılarak veri üretilmiştir. Eşitlenecek test formları iki temel veri yapısına dayalı olarak kurgulanmıştır. İlk olarak, eski formun (Form Y) tek boyutlu bir yapı sergilediği, yeni formun (Form X) ise basit yapılı çok boyutlu bir yapıya sahip olduğu veri setleri kullanılmıştır. İkinci olarak, her iki test formunun da basit yapılı çok boyutlu bir yapıya sahip olduğu veri setleri kullanılmıştır. Örneklem büyüklüğü (250, 1000, 5000), test uzunluğu (20, 40, 60), ikinci boyuta yüklenen madde oranı (%15, %30, %50) ve yerel bağımsızlık varsayımının ihlal edildiği form sayısı (sadece bir form ve her iki form) gibi değişkenleri kapsayan toplam 72 koşul belirlenmiştir. Bu koşullar altında, her biri iki kategori ve 2PLM ile uyumlu 100 tekrar içeren 7200 veri seti oluşturulmuştur. Çalışmada“Rastgele Gruplar Tasarımı”kullanılmıştır. Analizler sonucunda, çalışmadaki eşitleme yöntemleri örneklem büyüklüğü açısından incelendiğinde, sınava giren kişi sayısı arttıkça eşitlemenin standart hatalarının azaldığı, yanlılık değerlerinde ise sistematik bir artış veya azalış gözlenmediği tespit edilmiştir. Ayrıca, KTK temelli eşitleme yöntemlerinde dikkate alınan koşullara bağlı olarak RMSE değerlerinde farklılıklar gözlenmiştir. MTK temelli eşitleme yöntemlerinde, eşitlenecek test formlarından biri çok boyutlu olduğunda, örneklem büyüklüğü arttıkça RMSE değerlerinde genel bir düşüş meydana geldiği gözlemlenmiştir. Her iki test formu da çok boyutlu olduğunda, Haebara ölçek dönüştürme yöntemi dışındaki ölçek dönüştürme yöntemleri ile gözlenen ve gerçek puan eşitlemesinden kaynaklanan RMSE değerlerinin örneklem büyüklüğü arttıkça genel olarak azaldığı görülmektedir. Basit yapılı-ÇBMTK gözlenen puan eşitleme yönteminde, tüm koşullarda örneklem büyüklüğü arttıkça RMSE değerlerinde azalma gözlenmiştir. Eşitlenecek test formlarından yalnızca birinin yerel bağımsızlık varsayımını ihlâl ettiği durumlarda KTK'ya dayalı eşitleme yöntemleri incelendiğinde, çalışmada ele alınan tüm koşullar için tek bir eşitleme yönteminin tutarlı bir şekilde en az hatayı üretmediği görülmüştür. Yerel bağımsızlık varsayımının ihlalinden daha az etkilenen yöntemin seçimi koşullara göre değişiklik göstermiştir. MTK eşitleme yöntemlerine ilişkin olarak, Stocking-Lord ölçek dönüştürme yönteminden elde edilen hata değerleri diğer ölçek dönüştürme yöntemlerinden elde edilenlerden tutarlı bir şekilde daha düşüktür ve tüm koşullarda yerel bağımsızlık varsayımı ihlallerinden daha az etkilenmiştir. Gözlenen ve gerçek puan eşitleme yöntemleri karşılaştırıldığında, RMSE değerleri açısından, gözlenen puan eşitleme yönteminin tüm koşullar için gerçek puan eşitleme yönteminden daha az hata sergilediği ve yerel bağımsızlık varsayımının ihlâlinden nispeten daha az etkilendiği sonucuna varılmıştır. MTK gözlenen puan eşitleme yöntemi ile KTK tabanlı eşitleme yöntemleri karşılaştırıldığında, gözlenen puan eşitleme yönteminin daha düşük RMSE değerleri verdiği ve yerel bağımsızlık varsayımı ihlallerine karşı daha dayanıklı olduğu belirlenmiştir. Her iki test formunun da yerel bağımsızlık varsayımını ihlal ettiği durumda, KTK'ya dayalı eşitleme sonuçları hata türleri ve koşullarına göre farklılık göstermiştir. Stocking-Lord ölçek dönüştürme yöntemi, MTK kapsamındaki ölçek dönüştürme yöntemleri arasında eşitlemenin standart hatası, yanlılık ve RMSE değerleri açısından en az hataya sahip yöntem olarak ortaya çıkmış ve yerel bağımsızlık varsayımının ihlâl edilmesinden en az etkilenmiştir. Gözlenen puan ve gerçek puan eşitleme yöntemleri RMSE değerlerine göre karşılaştırıldığında, gözlenen puan eşitleme yöntemi tutarlı bir şekilde en düşük hata değerlerini üretmiş ve yerel bağımsızlık varsayımının ihlaline karşı en fazla duyarlılığı göstermiştir. Basit yapılı-ÇBMTK Gözlenen Puan Eşitleme yöntemi, KTK tabanlı eşitleme yöntemleri ve MTK gözlenen puan eşitleme yöntemi ile birlikte RMSE değerleri açısından incelendiğinde, Basit yapılı-ÇBMTK Gözlenen Puan Eşitleme yönteminin daha düşük RMSE değerlerine sahip olduğu ve yerel bağımsızlık varsayımının ihlallerinden daha az etkilendiği bulunmuştur. Son olarak, yerel bağımsızlık varsayımı ihlâl edildiğinde, test formlarının tek boyutlu olduğu durumların aksine, hata değerlerindeki temel farklılığın birincil olarak yanlılık değerlerinde olduğu sonucuna varılmıştır. Yerel bağımsızlık varsayımının ihlali, eşitleme yöntemlerine ilişkin yanlılık değerleri üzerinde önemli etkiye sahiptir ve KTK tabanlı eşitleme yöntemleri yanlılık değerlerinde en fazla farklılaşmayı göstermektedir.
Özet (Çeviri)
The effect of loading some items on a second dimension as a consequence of the local independence assumption being violated on the equating errors obtained by different test equating methods in unidimensional and binary scored tests is aimed to be examined in this study. A simulation research design is employed, comparing test equating methods with simulation data under varying conditions in a controlled manner. To ensure the authenticity of the responses reflected in the simulation data, data were generated using the distributions of the data obtained from the first form of the PISA 2018 mathematics exam. The test forms to be equated are constructed based on two fundamental data structures. First, data sets were employed where in the old form (Form Y) exhibited a unidimensional structure, while the new form (Form X) possessed a simple multidimensional structure. Second, datasets were used where both test forms featured a simple multidimensional structure. A total of 72 conditions, encompassing variations in sample size (250, 1000, 5000), test length (20, 40, 60), the proportion of items loaded onto the second dimension (15%, 30%, 50%) and the number of forms in which the local independence assumption was violated (only one form and both forms). Under these conditions, 7200 datasets were generated each comprising two categories and 100 replications compatible with 2PLM (Two-Parameter Logistic Model). The study employed a“Random Groups Design.”As a result of the analyses, it was determined that, when the equating methods in the study were examined in terms of sample size, the standard errors of the equating decreased as the number of test takers increased, , with no systematic increase or decrease in bias values observed. Additionally, differences in RMSE values were observed based on the conditions considered in the equating methods rooted in Classical Test Theory (CTT). In IRT-based equating methods, it was observed that when one of the test forms to be equated is multidimensional, a general decrease in RMSE values occurs as the sample size increases. When both test forms are multidimensional, RMSE values resulting from observed and true score equating via scale transformation methods other than the Haebara scale transformation method are generally seen to decrease as the sample size increases. In the SS-MIRT equating method, a decrease in RMSE values with increasing sample size was observed across all conditions. When examining equating methods based on CTT in cases where only one of the test forms to be equated violates the local independence assumption, it was found that no single equating method consistently produced the least error for all conditions considered in the study. The choice of method less affected by the violation of the local independence assumption varied according to the conditions. Regarding IRT equating methods, error values (SE, Bias, RMSE) obtained from the Stocking-Lord scale transformation method were consistently lower than those from other scale transformation methods and were less influenced by violations of the local independence assumption across all conditions. Comparing observed score and true score equating methods, it was concluded that, in terms of RMSE values, the observed score equating method exhibited less error than the true score equating method for all conditions and was relatively less affected by the violation of the local independence assumption. When contrasting the IRT-based observed score equating method with CTT-based equating methods, it was determined that the observed score equating method yielded lower RMSE values and demonstrated greater robustness to violations of the local independence assumption. In the case where both test forms violated the local independence assumption, equating results based on CTT vasied with respect to error types and conditions. The Stocking-Lord scale transformation method emerged as the method with the least error in terms of the standard error of equating, bias and RMSE values among scale transformation methods within the scope of the IRT, and it was least affected by the violating the local independence assumption. In comparing observed score and true score equating methods based on RMSE values, the observed score equating method consistently produced the lowest error values and exhibited the least sensitivity to violations of the local independence assumption. When examining the SS-MIRT Observed Score Equating method alongside CTT-based equating methods and the IRT observed score equating method in terms of RMSE values, it is found that the SS-MIRT Observed Score Equating method had lower RMSE values and was less influenced by the violations of the local independence assumption. Finally, it is concluded that the primary difference in error values when the local independence assumption is violated, as opposed to when the test forms are unidimensional, primary residesin the bias values. The violation of the local independence assumption exerts the most significant impact on bias values concerning equating methods, with CCT-based equating methods demonstrating the most substantial shifts in bias values.
Benzer Tezler
- Kent içi raylı sistem yatırımlarının analizi ve yönetim modelleri: Ankara ili örneği
Investment analysis and management models of urban rail system: The case of Ankara province
SEVİLAY BOSTANCI
Doktora
Türkçe
2023
UlaşımAnkara ÜniversitesiGayrimenkul Geliştirme ve Yönetimi Ana Bilim Dalı
DOÇ. DR. YEŞİM TANRIVERMİŞ
DOÇ. DR. KÜBRA YILDIRIM ÖZCAN
- Design of dynamic Braille display for mobile phones
Cep telefonları için dinamik Braille görüntüleyicisi tasarımı
REMZİ YALIN SÖNMEZ
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAT İKİZOĞLU
- Construction risk management in developing countries
Gelişmekte olan ülkelerde inşaat risk yönetimi
TUNA ERATA
Yüksek Lisans
İngilizce
2017
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. FATMA HEYECAN GİRİTLİ
- Performance evaluations on the spatial reuse techniques of the next generation wlans
Yeni nesil kablosuz yerel ağlarında spektral tekrar kullanım tekniklerinin değerlendirmesi
ÖMER FARUK TOPAL
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNEŞ ZEYNEP KARABULUT KURT