Geri Dön

Toplam puan ve alt puanların birlikte kestirildiği modellerin kestirim doğruluğu, güvenirlik ve sınıflama doğruluğuna göre karşılaştırılması

Comparison of models estimating overall score and subscore simultaneously in terms of precision, reliability and classification accuracy

  1. Tez No: 677756
  2. Yazar: AYŞENUR ERDEMİR
  3. Danışmanlar: PROF. DR. HAKAN YAVUZ ATAR
  4. Tez Türü: Doktora
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
  13. Sayfa Sayısı: 291

Özet

Bu araştırmanın ana amacı, toplam test ve alt testlere ilişkin yetenek kestirim modellerinin karşılaştırmalı incelenmesidir. Çalışma kapsamında ele alınan ÇBMTK, ÜDMTK ve Bifaktör modelleri, kestirim doğruluğu, güvenirlik ve sınıflama doğruluğuna dayalı olarak karşılaştırılmıştır. Çalışmada simülasyon veri ve Türkiye'de bir devlet üniversitesi Yabancı Diller Yüksek Okulu tarafından geliştirilip uygulanan İngilizce yeterlilik sınavına ait gerçek veri kullanılmıştır. Simülasyon çalışmasında örneklem büyüklüğü 5000, madde sayısı 30 ve boyut sayısı dört olarak belirlenmiştir. Manipüle edilen değişkenler toplam testte yer alan çoklu puanlanan madde yüzdesi (%5, %10, %25, %50), test güçlüğü (çok zor, zor, orta, kolay, çok kolay) ve boyutlar arası korelasyondur (0,2; 0,5; 0,8). 60 çapraz koşulun (3 korelasyon x 4 testteki çoklu puanlanan madde yüzdesi x 5 test güçlüğü) her biri için 100 replikasyon yapılmış ve toplamda 6000 veri üretilmiştir. Madde yanıt örüntüleri SimuMIRT programı ile elde edilmiştir. ÇBMTK, ÜDMTK ve Bifaktör modelleri için yetenek kestirimleri BMIRT programı kullanılarak gerçekleştirilmiştir. Kestirim modellerinin ve simülasyon koşullarının, yetenek kestirimlerine göre elde edilen RMSE, güvenirlik ve sınıflama doğruluğu değerlerine olan etkisi faktöriyel karma ANOVA ile test edilmiştir. Son olarak gerçek veri her üç kestirim modeli ile analiz edilmiş, yetenek kestiriminin standart hatası, marjinal güvenirliği ve geçti-kaldı kararına göre sınıflama doğruluğu değerleri viii incelenmiştir. Genel olarak, simülasyon çalışması sonuçları hem toplam puan hem de alt puan açısından ÇBMTK modelinin bütün koşullarda ÜDMTK ve Bifaktör modelden daha iyi performans sergilediğini göstermektedir. Korelasyon yüksek olduğunda modellere göre toplam puan için elde edilen güvenirlikler arasındaki fark düşüktür. Alt puanlarda ÇBMTK ve ÜDMTK birbirine yakın sonuçlara sahiptir. Toplam puanda her üç model için de korelasyon arttıkça model performansı iyileşmiştir. Alt puanlarda ÇBMTK ve ÜDMTK modelleri için korelasyon arttıkça model performansı iyileşirken Bifaktör model performansı kötüleşmiştir. Çoklu puanlanan madde yüzdesi artışının da olumlu bir etkiye sahip olduğu görülmüştür. Test güçlüğü açısından ise test orta güçlükte olduğunda modellerin daha iyi performans gösterdiği, test güçlüğü çok zor olduğunda en yüksek hata, en düşük güvenirlik ve sınıflama doğruluğu değerlerinin elde edildiği sonucuna ulaşılmıştır. En yüksek sınıflama doğruluğu değerleri test kolay ya da çok kolay olduğunda elde edilmiştir. Değişkenlerin düzeylerine göre sonuçlarda bazı farklılıklar görülmüş olup hepsi detaylı olarak raporlanmıştır. Gerçek veri analizi ile elde edilen bulgular da simülasyon çalışmasını destekler niteliktedir.

Özet (Çeviri)

This research aims to evaluate the ability estimation models for the overall score and subscores simultaneously. MIRT, HOIRT, and Bifactor models discussed within the scope of the study were compared based on precision, reliability, and classification accuracy. In the study, both simulation data and real data of an English proficiency exam developed and administered by the School of Foreign Languages of a state university in Turkey were used. In the simulation study, the sample size was determined as 5000, the number of items as 30, and the number of dimensions as four. The manipulated variables are the percentage of polytomously-scored items in the total test (5%, 10%, 25%, 50%), test difficulty (very difficult, difficult, medium, easy, very easy), and correlation between dimensions (0.2, 0.5, 0.8). The number of replication was 100 for each of the 60 cross-conditions (3 correlations x 4 levels of percentage of polytomously-scored items x 5 levels of test difficulties), and 6000 data were generated. Overall scores and subscores for MIRT, HOIRT, and Bifactor models were estimated using the BMIRT program. A factorial mixed ANOVA was performed to test the effects of estimation models and simulation conditions on RMSE, reliability, and classification accuracy values of ability estimations. Lastly, the real data were analyzed with all three estimation models, and the standard error, marginal reliability, and classification accuracy values of the ability estimation were examined. In general, the x simulation study results show that the MIRT model outperforms the HOIRT and Bifactor models in all conditions, both in terms of overall score and subscores. When the correlation is high, the difference between the reliability obtained from the estimation models for the overall score is low. For subscores, MIRT and HOIRT have similar results. For overall scores, as the correlation increased, the model performance improved for all three models. For subscores, as the correlation increased, the model performance improved for the MIRT and HOIRT models, while the Bifactor model performance declined. In terms of test difficulty, it was concluded that the models performed better when the test was of medium difficulty, and the highest error, lowest reliability and classification accuracy values were obtained when the test difficulty was very difficult. The highest classification accuracy values were obtained when the test was easy or very easy. There were some differences in the results depending on the levels of the variables, and all of them were reported in detail. Findings obtained with real data analysis also support the simulation study.

Benzer Tezler

  1. Ortaokul öğrencilerinin bilişimsel düşünme becerileri ile yaratıcı problem çözme becerileri arasındaki ilişki

    The relationship between secondary school students computational thinking skills and creative problem solving skills

    MUHAMMED PAF

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimAydın Adnan Menderes Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BESTE DİNÇER

  2. Yapay kalp destek cihazı kullanan ve kalp nakli yapılan vakalarda emosyonel-bilişsel durum, yürütücü işlevler, yaşam kalitesi ve sosyal bilişin değerlendirilmesi

    Evaluation of emotional-cognitive circumstances, executive functions, quality of life and social cognition in the cases who had heart transplantation and are using artificial heartassist device

    DİDEM ÇELİK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2021

    PsikiyatriEge Üniversitesi

    Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. NAZLI BURCU ÖZBARAN

  3. Vineland Uyum Davranış Ölçeği -araştırma formu- (VUDÖ-AF)' nun doğumdan 3 yaş 11 aylığa kadar olan Türk bebekleri için uyarlama, güvenirlik ve geçerlik çalışması

    The Adaptation, reliability and validity study of Vineland Adaptive Behavior Scales -survey form- (VABS-SF) for Turkish babies

    BAŞAK ALPAS

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    PsikolojiAnkara Üniversitesi

    Psikoloji Ana Bilim Dalı

    DOÇ. DR. MELDA AKÇAKIN

  4. 48-72 aylık çocuklar için öz düzenleme becerileri ölçeği'nin geliştirilmesi ve çocukların öz düzenleme beceri düzeyleri ile annelerine bağlanma biçimleri, annelerin ebeveyn davranışları ve psikolojik sağlıkları arasındaki ilişkinin incelenmesi

    Development of the self-regulation skills scale for 48-72 months old children and the investigation of the relationship between the level of self regulation skills of preschoolers and attachment security, maternal parenting behaviors and maternal psychological well-being

    DİLAN BAYINDIR

    Doktora

    Türkçe

    Türkçe

    2016

    Eğitim ve ÖğretimMarmara Üniversitesi

    İlköğretim Ana Bilim Dalı

    PROF. DR. OZANA URAL

  5. The impact of rater experience and essay quality on rater behavior and scoring

    Puanlayıcı tecrübesi ve komposizyon kalitesinin puanlayıcı davranışı ve komposizyon puanları üzerindeki etkisi

    ÖZGÜR ŞAHAN

    Doktora

    İngilizce

    İngilizce

    2018

    Eğitim ve ÖğretimÇanakkale Onsekiz Mart Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. SALİM RAZI