Madde düzeyinde boyutluluk modellerinin bilgisayar ortamında bireyselleştirilmiş test yöntemleri üzerindeki etkisinin incelenmesi
Examining the effects of item level dimensionality models on multidimensional computerized adaptive testing methods
- Tez No: 418187
- Danışmanlar: PROF. DR. SELAHATTİN GELBAL
- Tez Türü: Doktora
- Konular: Eğitim ve Öğretim, İstatistik, Education and Training, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
- Sayfa Sayısı: 152
Özet
Bu çalışmanın amacı, farklı yetenek kestirimi yöntemleri, madde seçim yöntemleri ve test sonlandırma kurallarını dikkate alarak bireylerin yabancı dil yeteneklerinin telafi-edici modellere dayalı Çok Boyutlu Bilgisayar Ortamında Bireyselleştirilmiş (BOB) Testi yöntemleri ile ölçülmesi ve madde-içi ve maddeler-arası boyutluluğun çok-boyutlu BOB testi yöntemlerinin performansları üzerindeki etkisinin incelenmesidir. Bu amaç doğrultusunda, Hacettepe Üniversitesi tarafından uygulanan dinleme, okuduğunu anlama ve dilbilgisi olmak üzere üç boyuttan oluşan İngilizce Yeterlik Sınavlarına (İYS) ilişkin gerçek veri seti kullanılarak gerçek verilere dayalı simülasyon (post-hoc simulation) yapılmıştır. Bu çalışmada, 2009-2013 eğitim-öğretim yıllarında uygulanan 10 İngilizce yeterli sınavına ait veri seti kullanılmış ve her bir testte yer alan maddelere ait madde parametreleri telafi-edici (compensatory) çok boyutlu 2 parametreli lojistik model (CM-2PLM) kullanılarak kestirilmiştir. Madde-içi boyutluluk modeline ait madde havuzu 565 maddeden oluşurken, maddeler-arası boyutluluk modeline ait madde havuzu ise 559 maddeden oluşmaktadır. Bu çalışmada en uygun çok-boyutlu BOB testine karar vermek için iki farklı yetenek kestirim yöntemi (Fisher'in puanlama ve Bayesyen MAP yöntemi), üç farklı madde seçim yöntemi (A-optimality, D-optimality, Seçkisiz madde seçim yöntemi) ve iki farklı test sonlandırma kuralı (sabit madde sayısı ve hata varyansı durdurma kuralı) kullanılmıştır. Toplamda 72 koşul analiz edilmiş ve her bir koşula ilişkin analiz sonuçları güvenirlik katsayıları, ölçmenin standart hatası, ortalama madde sayısı, gerçek ve kestirilen yetenek parametreleri arasındaki korelasyon ve RMSD değerleri açısından karşılaştırılmıştır. Madde düzeyinde boyutluluk modellerine dayalı çok boyutlu BOB testi analiz sonuçlarına bakıldığında, farklı madde seçim ve yetenek kestirim yöntemlerinin kullanımının standart hata, testin uzunluğu, gerçek ve kestirilen yetenek parametreleri arasındaki korelasyon ve RMSD değerlerini etkilediği bulgusuna ulaşılmıştır. D-optimality madde seçim yöntemi yerine A-optimality madde seçim yöntemi kullanıldığında her bir boyutluluk modeli için hem test uzunluğunun ve RMSD değerlerinin azaldığı hem de her bir boyuta ilişkin testin güvenirliğinin arttığı bulgusuna ulaşılmıştır. Diğer taraftan, madde seçim yöntemlerinden D-optimality ve yetenek kestirim yöntemlerinden MLE'ye dayalı Fisher'in puanlama yönteminin madde düzeyinde boyutluluk modellerinden etkilendiği görülmektedir. Gerçek verilere dayalı (post-hoc) simülasyon analizi bulgularına göre kağıt-kalem testleri ile karşılaştırıldığında çok boyutlu BOB testlerinin daha az madde ile daha yüksek güvenirlikte ölçümler yaptığı görülmektedir. Sonuç olarak, A-optimality madde seçim ve Bayesyen MAP yetenek kestirim yöntemlerinin kullanıldığı madde-içi boyutluluk modeline dayalı çok boyutlu BOB testlerinin diğer çok boyutlu BOB testlerine göre daha güvenilir ve tutarlı sonuç verdiği söylenebilir. Bu çalışmanın sonuçları İYS sınavının gerçek çok-boyutlu BOB testi yöntemleri ile uygulanmasında önemli bir katkı sağlayabilir.
Özet (Çeviri)
The purpose of this study is to measure students' language abilities with Compensatory Multidimensional Computerized Adaptive Testing (MCAT) designs using different ability estimation, item selection methods and stopping rules; and to examine the effect of item-level dimensionality models on MCAT. For this purpose, real data set from English Proficiency Test (EPT) administered by Hacettepe University was used to conduct post-hoc simulation, in which each test consist of three dimensions listening, reading and grammar, respectively. In this study, 10 EPT data sets administered between 2009 and 2013, were used to conduct analysis. Item parameters were estimated with compensatory multidimensional 2 parameter logistic model (CM-2PLM) and item pool for with-in item dimensionality model consisted of 565 items, while item pool for between item dimensionality consisted of 559 items. In order to determine the best MCAT algorithm for EPT, two different theta estimation (Fisher scoring and Bayesian MAP) methods, three different fisher information based item selection methods (A-optimality, D-optimality and Random) and two different termination methods (fixed number of item, precision based) were used. In total, 72 different conditions were taken into consideration, and results of these conditions were compared with respect to, reliability index, SEM, averaged number of items administered and RMSD values between full bank theta and estimated MCAT theta. MCAT Results indicated that using different theta estimation and item selection methods affected SEM, averaged number of administered items, correlation between true and estimated theta and RMSD values. Using A-optimality rather than D-optimality to select items both decreased average number of items administered, RMSD values and increased test reliability for both dimensionality models. On the other hand, both D-optimality item selection and MLE-based Fisher's scoring methods were affected from item-level dimensionality methods. Results also indicated that post-hoc MCAT simulation for EPT provided ability estimations with higher reliability and fewer items compared to paper and pencil format. Overall, MCAT designs based on within-item models with A-optimality and Bayesian theta estimation method outperformed other MCAT designs. Results of this study would also provide an important guideline for live MCAT application of EPT.
Benzer Tezler
- Protein fold classification and motif retrieval methods by using the primary and secondary structures
Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı
ÖZLEM POLAT
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ZÜMRAY DOKUR ÖLMEZ
- Bir, iki, üç ve dört parametreli lojistik madde tepki kuramı modellerinin karşılaştırılması
Comparison of 1PL, 2PL, 3PL and 4PL item response theory models
AYŞENUR ERDEMİR
Yüksek Lisans
Türkçe
2015
Eğitim ve ÖğretimGazi ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. EMİNE ÖNEN
- A Study of the predictive validity of the Başkent University English proficiency exam through the use of the two-parameter IRT model's ability estimates
İki parametreli tepki kuramı (MTK) modelinin yetenek kestirimleriyle Başken Üniversitesi İngilizce yeterlik sınavının yordama geçerliğini inceleme çalışması
TANER YAPAR
Yüksek Lisans
İngilizce
2003
Eğitim ve ÖğretimOrta Doğu Teknik ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. HALİL GİRAY BERBEROĞLU
- Parametrik ve parametrik olmayan madde tepki kuramı modellerinden çeşitli faktörlere göre elde edilen madde ve yetenek kestirimlerinin karşılaştırılması
The comparison of item and ability estimations calculated from the parametric and non-parametric item response theory according to the several factors
EZGİ MOR DİRLİK
Doktora
Türkçe
2017
Eğitim ve ÖğretimAnkara ÜniversitesiÖlçme ve Değerlendirme Ana Bilim Dalı
PROF. DR. NİZAMETTİN KOÇ
- Okuduğunu anlama ile akıcı okuma, okur benlik algısı, okumaya adanmışlık ve okuyucu tepkisi ilişkileri
Direct and inferential relations among reading comprehension, silent and oral reading fluency, reading self-concept, reading engagement and response to picturebooks
BARIŞ ESMER