Geri Dön

Sıklıkla kullanılan kayıp veri yöntemlerinin betimsel istatistik güvenirlik ve geçerlik açısından karşılaştırılması

Evaluation of commonly used missing data methods in terms of descriptive statistics, reliability and validity

  1. Tez No: 384701
  2. Yazar: MERVE ŞAHİN KÜRŞAD
  3. Danışmanlar: DOÇ. DR. ZEKERİYA NARTGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Eğitim ve Öğretim, Education and Training
  6. Anahtar Kelimeler: Kayıp veri yöntemleri, betimsel istatistik, geçerlik, güvenirlik, Missing data methods, descriptive statistics, validity, reliability
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Abant İzzet Baysal Üniversitesi
  10. Enstitü: Eğitim Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
  13. Sayfa Sayısı: 125

Özet

Kayıp veri sorunu araştırmacıların sıklıkla karşılaştığı sorunlardan biridir. Bu sorun çalışma sonuçlarını olumsuz etkileyerek hatalı çıkarımlar yapılmasına neden olmaktadır. Bundan dolayı kayıp veri problemine çözüm olarak farklı kayıp veri yöntemleri geliştirilmiştir. Örneklem büyüklüğü, kayıp veri miktarı, kayıp veri mekanizması vb. etkenlere bağlı olarak kayıp veriyi tamamlamada hangi yöntemin kullanılacağı değişkenlik göstermektedir. Temel araştırma niteliği taşıyan bu çalışmada farklı örneklem büyüklüğü ve farklı oranlarda kayıp veri içeren veri setleri 9 farklı kayıp veri yöntemi ile yeniden yapılandırılmış ve tam veri setleri ile betimsel istatistikler, güvenirlik ve geçerlik bakımından karşılaştırılarak hangi koşullar altında hangi yöntemlerin kullanılabilir olduğuna ilişkin çıkarımlarda bulunmak amaçlanmıştır. Araştırmada Uluslararası Öğrenci Değerlendirme Programı (PISA) verilerinden yararlanılmıştır. Veriler için PISA 2012 Türkiye örneklemi ve öğrenci ölçeklerinden normal dağılıma sahip, tek faktörlü“Matematik Çalışma Etiği (Math Work Ethic)”ölçeği seçilerek, analizler için rastgele 200, 500 ve 1000 kişilik çalışma grupları oluşturulmuştur. Tam veri setleri üzerinde, tamamıyla rassal olarak kayıp mekanizması altında %5, %10 ve %20 oranlarında silme işlemi gerçekleştirilmiştir. Kayıp verilerin yeniden yapılandırılması aşamasında seri ortalaması, yakın noktaların ortalaması, yakın noktaların medyanı, doğrusal değer kestirimi, noktanın doğrusal eğimi, liste bazında silme, beklenti maksimizasyonu, regresyon ataması ve çoklu atama yöntemleri kullanılmıştır. Kayıp veri yöntemleriyle karşılaştırmada tam veri setlerinden elde edilen betimsel istatistik, güvenirlik ve geçerliğe ilişkin değerler referans değerler olarak kullanılmıştır. Kayıp veri yöntemleri kullanılarak yapılandırılan yeni verilerden elde edilen değerler ile referans değerler karşılaştırılarak hangi yöntemin hangi koşullar altında diğerlerine göre daha kullanılabilir olduğuna ilişkin çıkarımlarda bulunulmuştur. Karşılaştırmalar bazı durumlar için betimsel düzeyde, bazı durumlar için t testi ve Fisher'in z testi kullanılmak suretiyle gerçekleştirilmiştir. Araştırma sonuçlarına göre farklı büyüklük ve farklı kayıp veri oranlarında, liste bazında silme yöntemi için elde edilen değerler, genel olarak tam veri setlerinden elde edilen değerlere en az benzerlik gösteren değerlerdir. Yaklaşık değer atama yöntemleri için elde edilen değerler kayıp veri oranının düşük olduğu durumlarda genel olarak tam veri setlerinden elde edilen değerlere yakın veya aynı değerleri verirken, tam veri setlerinden elde edilen değerlere çok yakın değer veren yöntemler beklenti maksimizasyonu, regresyon ataması ve çoklu atama yöntemleri olmuştur. Belirtilen yöntemler içerisinde özellikle çoklu atama yöntemi için elde edilen değerlerin, diğer yöntemlere göre, tam veri setlerinden elde edilen değerlere daha yakın sonuçlar verdiği görülmüştür. Betimsel karşılaştırmalarda bazı yöntemlerin diğerlerine göre kullanılabilirlik bakımından ön plana çıktığı görülse de yöntemler arasında büyük benzerliklerin olduğu sonucuna ulaşılmıştır.

Özet (Çeviri)

Missing data is often encountered by researchers. This problem negatively effects the results of researches and causes erroneous inferences. As a solution to this problem different missing data methods were developed. These methods which are used to complete the missing data differ depending on size of sample, quantity of missing data, mechanism of missing data etc.This research is a basic research and in which data sets with different sample size and different amount of missing data were used. The purpose of this study is to define the suitable methods for different conditions by comparing the complete data sets with data sets which are applied 9 different missing data methods, in terms of descriptive statistics, reliability and validity. For this research, Programme for International Students' Assesment (PISA) data were used. PISA 2012 Turkey sample and“Math Work Ethic”scale which was normally distributed and one factored, was selected and data sets which contained 200, 500 and 1000 data were formed at random. Then by using completely missing at random mechanism, %5, %10 and %20 of data were deleted from each data set. In order to complete these missing data, series mean, mean of nearby points, median of nearby points, linear interpolation, linear trend at point, listwise deletion, expectation maksimization, regression imputation and multiple imputation techniques were used. When comparing missing data methods, values obtained from descriptive statistics, reliability and validity were used as referance values. New data values which has been structured with missing data methods compared to referance values in order to make an inference about which method is suitable for different conditions. Some conditiones were compared in descriptive level, some conditiones were compared in terms of t-test and Fisher z test. The results of the study revealed that for different size and missing data rate, listwise deletion method values had the least similarity with the values obtained from complete data sets. Approximate value imputation methods (estimation) values had results which was close to the complete data set values or same with it when the quantity of missing data was low. The methods which had the closest values to values obtained from the complete data set were expectation maximization, regression imputation and multiple imputation. Multiple imputation method outperformed compared to the others. Although, in descriptive comparisons it was found that some methods were more at the forefront, there was no statistically significant difference between methods according to t-test and Fisher z test.

Benzer Tezler

  1. Türkçenin yabancı dil olarak öğretiminde kullanılan kitaplardaki kalıp söz ve deyim varlığı

    Routines and idioms in the course books which are used for teaching Turkish as a foreing language

    SENA ZORPUZAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Eğitim ve ÖğretimBolu Abant İzzet Baysal Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    PROF. DR. HALİT KARATAY

  2. Assessment of urbanization history of Addis Ababa city, Ethiopia

    Addıs Ababa cıty, Ethıopıa'nın kentleşme tarihinin değerlendirilmesi

    ABDURAHMAN HUSSEN YIMER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Şehircilik ve Bölge PlanlamaMersin Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. ALİ CENAP YOLOĞLU

  3. Flüt eğitiminde dil tekniklerinin öğretimine yönelik durum analizi

    A situation analysis on teaching tongue techniques in flute education

    MERVE KARALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    MüzikMuğla Sıtkı Koçman Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    DOÇ. DR. GÜLCE COŞKUN ŞENTÜRK

  4. Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması

    Classification with ensemble methods on missing and imbalanced data

    ENİS GÜMÜŞTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. AYÇA ÇAKMAK PEHLİVANLI

  5. Çoklu atama yöntemlerinin Rasch modelleri için performansının benzetim çalışması ile incelenmesi

    Assessing the performance of multiple imputation techniques for Rasch models with a simulation study

    BEYZA DOĞANAY ERDOĞAN

    Doktora

    Türkçe

    Türkçe

    2012

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ATİLLA HALİL ELHAN