Toplam puan ve alt puanların birlikte kestirildiği modellerin kestirim doğruluğu, güvenirlik ve sınıflama doğruluğuna göre karşılaştırılması

Comparison of models estimating overall score and subscore simultaneously in terms of precision, reliability and classification accuracy

PDF İndir

Tez No: 677756
Yazar: AYŞENUR ERDEMİR
Danışmanlar: PROF. DR. HAKAN YAVUZ ATAR
Tez Türü: Doktora
Konular: Eğitim ve Öğretim, Education and Training
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Eğitim Bilimleri Enstitüsü
Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
Sayfa Sayısı: 291

Özet

Bu araştırmanın ana amacı, toplam test ve alt testlere ilişkin yetenek kestirim modellerinin karşılaştırmalı incelenmesidir. Çalışma kapsamında ele alınan ÇBMTK, ÜDMTK ve Bifaktör modelleri, kestirim doğruluğu, güvenirlik ve sınıflama doğruluğuna dayalı olarak karşılaştırılmıştır. Çalışmada simülasyon veri ve Türkiye'de bir devlet üniversitesi Yabancı Diller Yüksek Okulu tarafından geliştirilip uygulanan İngilizce yeterlilik sınavına ait gerçek veri kullanılmıştır. Simülasyon çalışmasında örneklem büyüklüğü 5000, madde sayısı 30 ve boyut sayısı dört olarak belirlenmiştir. Manipüle edilen değişkenler toplam testte yer alan çoklu puanlanan madde yüzdesi (%5, %10, %25, %50), test güçlüğü (çok zor, zor, orta, kolay, çok kolay) ve boyutlar arası korelasyondur (0,2; 0,5; 0,8). 60 çapraz koşulun (3 korelasyon x 4 testteki çoklu puanlanan madde yüzdesi x 5 test güçlüğü) her biri için 100 replikasyon yapılmış ve toplamda 6000 veri üretilmiştir. Madde yanıt örüntüleri SimuMIRT programı ile elde edilmiştir. ÇBMTK, ÜDMTK ve Bifaktör modelleri için yetenek kestirimleri BMIRT programı kullanılarak gerçekleştirilmiştir. Kestirim modellerinin ve simülasyon koşullarının, yetenek kestirimlerine göre elde edilen RMSE, güvenirlik ve sınıflama doğruluğu değerlerine olan etkisi faktöriyel karma ANOVA ile test edilmiştir. Son olarak gerçek veri her üç kestirim modeli ile analiz edilmiş, yetenek kestiriminin standart hatası, marjinal güvenirliği ve geçti-kaldı kararına göre sınıflama doğruluğu değerleri viii incelenmiştir. Genel olarak, simülasyon çalışması sonuçları hem toplam puan hem de alt puan açısından ÇBMTK modelinin bütün koşullarda ÜDMTK ve Bifaktör modelden daha iyi performans sergilediğini göstermektedir. Korelasyon yüksek olduğunda modellere göre toplam puan için elde edilen güvenirlikler arasındaki fark düşüktür. Alt puanlarda ÇBMTK ve ÜDMTK birbirine yakın sonuçlara sahiptir. Toplam puanda her üç model için de korelasyon arttıkça model performansı iyileşmiştir. Alt puanlarda ÇBMTK ve ÜDMTK modelleri için korelasyon arttıkça model performansı iyileşirken Bifaktör model performansı kötüleşmiştir. Çoklu puanlanan madde yüzdesi artışının da olumlu bir etkiye sahip olduğu görülmüştür. Test güçlüğü açısından ise test orta güçlükte olduğunda modellerin daha iyi performans gösterdiği, test güçlüğü çok zor olduğunda en yüksek hata, en düşük güvenirlik ve sınıflama doğruluğu değerlerinin elde edildiği sonucuna ulaşılmıştır. En yüksek sınıflama doğruluğu değerleri test kolay ya da çok kolay olduğunda elde edilmiştir. Değişkenlerin düzeylerine göre sonuçlarda bazı farklılıklar görülmüş olup hepsi detaylı olarak raporlanmıştır. Gerçek veri analizi ile elde edilen bulgular da simülasyon çalışmasını destekler niteliktedir.

Özet (Çeviri)

This research aims to evaluate the ability estimation models for the overall score and subscores simultaneously. MIRT, HOIRT, and Bifactor models discussed within the scope of the study were compared based on precision, reliability, and classification accuracy. In the study, both simulation data and real data of an English proficiency exam developed and administered by the School of Foreign Languages of a state university in Turkey were used. In the simulation study, the sample size was determined as 5000, the number of items as 30, and the number of dimensions as four. The manipulated variables are the percentage of polytomously-scored items in the total test (5%, 10%, 25%, 50%), test difficulty (very difficult, difficult, medium, easy, very easy), and correlation between dimensions (0.2, 0.5, 0.8). The number of replication was 100 for each of the 60 cross-conditions (3 correlations x 4 levels of percentage of polytomously-scored items x 5 levels of test difficulties), and 6000 data were generated. Overall scores and subscores for MIRT, HOIRT, and Bifactor models were estimated using the BMIRT program. A factorial mixed ANOVA was performed to test the effects of estimation models and simulation conditions on RMSE, reliability, and classification accuracy values of ability estimations. Lastly, the real data were analyzed with all three estimation models, and the standard error, marginal reliability, and classification accuracy values of the ability estimation were examined. In general, the x simulation study results show that the MIRT model outperforms the HOIRT and Bifactor models in all conditions, both in terms of overall score and subscores. When the correlation is high, the difference between the reliability obtained from the estimation models for the overall score is low. For subscores, MIRT and HOIRT have similar results. For overall scores, as the correlation increased, the model performance improved for all three models. For subscores, as the correlation increased, the model performance improved for the MIRT and HOIRT models, while the Bifactor model performance declined. In terms of test difficulty, it was concluded that the models performed better when the test was of medium difficulty, and the highest error, lowest reliability and classification accuracy values were obtained when the test difficulty was very difficult. The highest classification accuracy values were obtained when the test was easy or very easy. There were some differences in the results depending on the levels of the variables, and all of them were reported in detail. Findings obtained with real data analysis also support the simulation study.

Benzer Tezler

Tez No
577695
Ortaokul öğrencilerinin bilişimsel düşünme becerileri ile yaratıcı problem çözme becerileri arasındaki ilişki
The relationship between secondary school students computational thinking skills and creative problem solving skills
MUHAMMED PAF
Yüksek Lisans
Türkçe
2019
Eğitim ve Öğretim Aydın Adnan Menderes Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BESTE DİNÇER
Tez No
707560
Yapay kalp destek cihazı kullanan ve kalp nakli yapılan vakalarda emosyonel-bilişsel durum, yürütücü işlevler, yaşam kalitesi ve sosyal bilişin değerlendirilmesi
Evaluation of emotional-cognitive circumstances, executive functions, quality of life and social cognition in the cases who had heart transplantation and are using artificial heartassist device
DİDEM ÇELİK
Tıpta Uzmanlık
Türkçe
2021
Psikiyatri Ege Üniversitesi
Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF. DR. NAZLI BURCU ÖZBARAN
Tez No
117528
Vineland Uyum Davranış Ölçeği -araştırma formu- (VUDÖ-AF)' nun doğumdan 3 yaş 11 aylığa kadar olan Türk bebekleri için uyarlama, güvenirlik ve geçerlik çalışması
The Adaptation, reliability and validity study of Vineland Adaptive Behavior Scales -survey form- (VABS-SF) for Turkish babies
BAŞAK ALPAS
Yüksek Lisans
Türkçe
2002
Psikoloji Ankara Üniversitesi
Psikoloji Ana Bilim Dalı
DOÇ. DR. MELDA AKÇAKIN
Tez No
437082
48-72 aylık çocuklar için öz düzenleme becerileri ölçeği'nin geliştirilmesi ve çocukların öz düzenleme beceri düzeyleri ile annelerine bağlanma biçimleri, annelerin ebeveyn davranışları ve psikolojik sağlıkları arasındaki ilişkinin incelenmesi
Development of the self-regulation skills scale for 48-72 months old children and the investigation of the relationship between the level of self regulation skills of preschoolers and attachment security, maternal parenting behaviors and maternal psychological well-being
DİLAN BAYINDIR
Doktora
Türkçe
2016
Eğitim ve Öğretim Marmara Üniversitesi
İlköğretim Ana Bilim Dalı
PROF. DR. OZANA URAL
Tez No
495555
The impact of rater experience and essay quality on rater behavior and scoring
Puanlayıcı tecrübesi ve komposizyon kalitesinin puanlayıcı davranışı ve komposizyon puanları üzerindeki etkisi
ÖZGÜR ŞAHAN
Doktora
İngilizce
2018
Eğitim ve Öğretim Çanakkale Onsekiz Mart Üniversitesi
Yabancı Diller Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. SALİM RAZI

Geri Dön