Farklı yetenek kestirim yöntemleriyle bilgisayar ortamında bireye uyarlanmış testlerin çeşitli koşullara göre incelenmesi
Examining computerized adaptive testing under various conditions using different ability estimation methods
- Tez No: 932901
- Danışmanlar: PROF. DR. BAYRAM BIÇAK
- Tez Türü: Doktora
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Bilgisayar ortamında bireye uyarlanmış testler, madde tepki kuramı, yetenek kestirim yöntemleri, post-hoc simülasyon, doğrusal test, Computerized adaptive testing, item response theory, ability estimation methods, post-hoc simulation, linear test
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Akdeniz Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
- Sayfa Sayısı: 204
Özet
Bu çalışma, bilgisayar ortamında bireye uyarlanmış testlerin (BOBUT) farklı koşullarda ve yetenek kestirim yöntemleri altında gösterdiği performansı analiz etmeyi amaçlamaktadır. Araştırma kapsamında, BOBUT sisteminin post-hoc simülasyon sonuçları kullanılarak farklı yetenek kestirim yöntemlerinin doğruluk, güvenilirlik ve kullanışlılık üzerindeki etkileri değerlendirilmiştir. Elde edilen bulgular, canlı BOBUT uygulamalarında yetenek kestirim yöntemlerinin performans özelliklerini karşılaştırmak amacıyla kullanılmıştır. Ayrıca çalışmada BOBUT ve doğrusal testler çeşitli kriterler açısından karşılaştırılarak her iki test türünün avantajları ve sınırlılıkları ortaya konmuştur. Tüm bu uygulamalar, BOBUT'un farklı yetenek kestirim yöntemleriyle gerçek ve simülasyon koşullarında test edilmesini sağlamak amacıyla temel araştırma modeline dayalı olarak tasarlanmıştır. Araştırma kapsamında iki farklı çalışma grubu oluşturulmuştur. İlk çalışma grubunda madde test kalibrasyonu ve post-hoc simülasyonlar gerçekleştirilirken ikinci çalışma grubunda canlı BOBUT ve doğrusal test uygulamaları yürütülmüştür. Okuduğunu anlama becerisini ölçmeye yönelik 155 maddelik bir madde havuzu geliştirilmiş ve 1502 ortaokul öğrencisinden elde edilen verilerle çeşitli başlama kuralları (theta=0, theta=-0,5:0,5), madde seçim yöntemleri (MEI, MFI, KL), yetenek kestirim yöntemleri (ML, EAP, MAP) ve sonlandırma kuralları (standart hata ve sabit madde sayısı) kombinasyonları değerlendirilmiştir. Post-hoc simülasyon sürecinin ardından 263 öğrenciye üç farklı yetenek kestirim yöntemi kullanılarak canlı BOBUT ve 25 maddelik doğrusal test uygulamaları yapılmış, bu yöntemlerin performansları karşılaştırılmıştır. Sonuçlar, başlama kurallarının test performansı üzerinde simülasyon süresi ve madde örtüşme oranları dışında minimal bir etkisi olduğunu göstermiştir. Madde seçim yöntemleri arasında hesaplama süresi bakımından en kullanışlı yöntem MFI, olarak belirlenirken MEI'nın diğer iki yönteme göre önemli ölçüde daha uzun işlem süreleri gerektirdiği gözlenmiştir. MEI, MFI ve KL yöntemlerine kıyasla daha kısa test uzunlukları sağlamıştır. Tüm madde seçim yöntemleri benzer korelasyon değerleri göstermiş olup bu durum, yetenek kestirim doğruluğu açısından yöntemlerin birbirine yakın performans sergilediklerine işaret etmektedir. Bununla birlikte KL yöntemi daha düşük RMSE değerleri sağlayarak daha yüksek ölçme hassasiyeti sunmuştur. Sonlandırma kurallarına ilişkin analizler, standart hata ile sabit madde sayısı kombinasyonunun en doğru sonuçları sağladığını, ancak daha uzun simülasyon süreleri gerektirdiğini göstermiştir. 0,50 standart hata kriteri ile 25 madde kombinasyonu, doğruluk ve kullanışlılık arasında optimum bir denge sunmuştur. Yetenek kestirim yöntemleri arasında MAP en hızlı yöntem olurken, ML en uzun hesaplama süresine ihtiyaç duymuştur. EAP, en düşük bias ve RMSE değerlerini sağlayarak özellikle kısa testlerde daha yüksek güvenirlik sunmuştur. MAP ve EAP, ayrıca daha düşük madde örtüşme oranları göstererek madde havuzunun daha etkin kullanımına olanak tanımıştır. Canlı BOBUT ve doğrusal test karşılaştırmalarında, özellikle MAP ve EAP yöntemlerini kullanan BOBUT'un daha güvenilir ve kullanışlı yetenek kestirimleri sağladığı belirlenmiştir. ML yöntemi, uç yetenek düzeylerinde daha fazla hata üretirken, MAP yöntemi daha dengeli ve kararlı kestirimler sunmuştur. Doğrusal testler, yetenek kestirimlerinde daha yüksek değişkenlik göstermiş ve daha uzun test sürelerine ihtiyaç duymuştur. Buna karşın uygun başlama kuralları, madde seçim stratejileri ve sonlandırma kriterleri ile optimize edilen BOBUT'un doğruluk, güvenirlik ve kullanışlılık açısından önemli avantajlar sunduğu görülmüştür. Ayrıca BOBUT doğrusal testlere kıyasla daha yüksek ölçme bilgisi sağlamış ve özellikle orta yetenek düzeylerinde daha hassas ölçümler gerçekleştirmiştir. MAP yöntemi en yüksek test bilgisini sunarken ML yöntemi görece daha düşük bilgi düzeyi sağlamıştır. Canlı BOBUT uygulamalarının yetenek kestirimleri arasında genel olarak güçlü korelasyonlar bulunurken BOBUT ile doğrusal test arasındaki ilişkilerin nispeten daha zayıf olduğu görülmüştür. ML ve EAP yöntemleri en yüksek korelasyonu gösterirken doğrusal test ile en düşük korelasyon MAP, en yüksek korelasyon ise EAP yöntemleriyle gözlemlenmiştir. Bu bulgular, BOBUT'un kendi içinde daha tutarlı sonuçlar verdiğini, ancak doğrusal test ile kıyaslandığında farklılıklar olabileceğini ortaya koymaktadır. Test süresi ve madde sayısı açısından, MAP yöntemi en kullanışlı sonuçları sağlarken ML yöntemi en uzun test süresi ve en fazla madde kullanımına ihtiyaç duymuştur. BOBUT, daha az madde kullanarak ölçme sürecini optimize etmiş ve bireylerin yetenek düzeyine uygun madde seçimini daha etkin bir şekilde gerçekleştirmiştir. Doğrusal testlerin sabit madde yapısı nedeniyle her bireye aynı maddeleri sunması, ölçme sürecinde esnekliği azaltırken, BOBUT'un adaptif yapısı bireylerin yetenek düzeylerine uygun sorular sunarak ölçme doğruluğunu artırmıştır.
Özet (Çeviri)
This study aims to analyze the performance of computerized adaptive tests (CAT) under different conditions and ability estimation methods. Within the scope of the research, the effects of various ability estimation methods on accuracy, reliability, and efficiency were evaluated using post-hoc simulation results of the CAT system. The findings obtained were used to compare the performance characteristics of ability estimation methods in live CAT applications. Additionally, the study compared CAT and linear tests in terms of various criteria, highlighting the advantages and limitations of both test types. All these applications were designed based on a fundamental research model to test CAT under real and simulation conditions with different ability estimation methods. Within the scope of the research, two different study groups were formed. In the first study group, item test calibration and post-hoc simulations were conducted, while in the second study group, live CAT and linear test applications were carried out. A 155-item pool was developed to measure reading comprehension skills, and data obtained from 1502 middle school students were used to evaluate various starting rules (theta=0, theta=-0.50:0.50), item selection methods (MEI, MFI, KL), ability estimation methods (ML, EAP, MAP), and termination rules (standard error and fixed item number) combinations. Following the post-hoc simulation process, live CAT and a 25-item linear test were administered to 263 students using three different ability estimation methods, and the performance of these methods was compared. The results showed that starting rules had a minimal effect on test performance, except for simulation time and item overlap rates. In terms of item selection methods, MFI was identified as the most efficient method in terms of computation time, while MEI required significantly longer processing times. MEI provided shorter test lengths compared to MFI and KL methods. All item selection methods showed similar correlation values, indicating that they performed similarly in terms of ability estimation accuracy. However, the KL method provided lower RMSE values, offering higher measurement precision. Analyses of termination rules showed that the combination of standard error and fixed item number provided the most accurate results but required longer simulation times. The combination of a 0.50 standard error criterion and 25 items offered an optimal balance between accuracy and efficiency. Among the ability estimation methods, MAP was the fastest method, while ML required the longest computation time. EAP provided the lowest bias and RMSE values, offering higher reliability, especially in short tests. MAP and EAP also showed lower item overlap rates, allowing for more effective use of the item pool. In comparisons between live CAT and linear tests, it was found that CAT, particularly when using MAP and EAP methods, provided more reliable and efficient ability estimations. The ML method produced more errors at extreme ability levels, while the MAP method offered more balanced and stable estimations. Linear tests showed higher variability in ability estimations and required longer test durations. In contrast, CAT, optimized with appropriate starting rules, item selection strategies, and termination criteria, offered significant advantages in terms of accuracy, reliability, and efficiency. Additionally, CAT provided higher measurement information compared to linear tests and performed more precise measurements, especially at medium ability levels. The MAP method provided the highest test information, while the ML method offered relatively lower information levels. Strong correlations were generally observed among live CAT applications, while the relationships between CAT and linear tests were relatively weaker. The ML and EAP methods showed the highest correlations, while the lowest correlation with the linear test was observed with the MAP method, and the highest correlation was observed with the EAP method. These findings indicate that CAT provides more consistent results within itself but may show differences when compared to linear tests. In terms of test duration and item number, the MAP method provided the most efficient results, while the ML method required the longest test duration and the highest number of items. CAT optimized the measurement process by using fewer items and more effectively selecting items appropriate to individuals' ability levels. The fixed item structure of linear tests, which presents the same items to every individual, reduces flexibility in the measurement process, while the adaptive structure of CAT increases measurement accuracy by presenting questions tailored to individuals' ability levels.
Benzer Tezler
- Bobut uygulamalarında farklı koşullardan elde edilen ölçme kesinliği kestirim değerlerinin karşılaştırılması
Comparison of measurement precision values obtained from different conditions in computerized adaptive testing
MELİKE ÖZER TAYMUR
Doktora
Türkçe
2023
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. DUYGU ANIL
- Bilgisayar ortamında bireye uyarlanmış test stratejilerinin karşılaştırılması
Comparison of the computerized adaptive testing strategies
FATİH KEZER
Doktora
Türkçe
2013
Eğitim ve ÖğretimAnkara ÜniversitesiÖlçme ve Değerlendirme Ana Bilim Dalı
PROF. DR. NİZAMETTİN KOÇ
- Bilgisayarda bireyselleştirilmiş test uygulamalarında kapsam dengelemenin ölçme kesinliğine etkisi
Effects of content balancing on measurement precision in computerized adaptive tests
İLKAY ÜÇGÜL ÖCAL
Doktora
Türkçe
2024
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. NURİ DOĞAN
- Bireyselleştirilmiş bilgisayarlı sınıflama testi kriterlerinin sınıflama doğruluğu ve test uzunluğu açısından karşılaştırılması
Comparison of computerized adaptive classification test criteria in terms of classification accuracy and test length
CEYLAN GÜNDEĞER
Doktora
Türkçe
2017
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. NURİ DOĞAN
- Test ve alt testlerde eşitlemenin farklı koşullar açısından incelenmesi
An investigation of test and sub-tests equating in terms of different conditions
GÖKHAN KUMLU
Doktora
Türkçe
2019
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. NURİ DOĞAN