Sıklıkla kullanılan kayıp veri yöntemlerinin betimsel istatistik güvenirlik ve geçerlik açısından karşılaştırılması
Evaluation of commonly used missing data methods in terms of descriptive statistics, reliability and validity
- Tez No: 384701
- Danışmanlar: DOÇ. DR. ZEKERİYA NARTGÜN
- Tez Türü: Yüksek Lisans
- Konular: Eğitim ve Öğretim, Education and Training
- Anahtar Kelimeler: Kayıp veri yöntemleri, betimsel istatistik, geçerlik, güvenirlik, Missing data methods, descriptive statistics, validity, reliability
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Abant İzzet Baysal Üniversitesi
- Enstitü: Eğitim Bilimleri Enstitüsü
- Ana Bilim Dalı: Eğitim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Eğitimde Ölçme ve Değerlendirme Bilim Dalı
- Sayfa Sayısı: 125
Özet
Kayıp veri sorunu araştırmacıların sıklıkla karşılaştığı sorunlardan biridir. Bu sorun çalışma sonuçlarını olumsuz etkileyerek hatalı çıkarımlar yapılmasına neden olmaktadır. Bundan dolayı kayıp veri problemine çözüm olarak farklı kayıp veri yöntemleri geliştirilmiştir. Örneklem büyüklüğü, kayıp veri miktarı, kayıp veri mekanizması vb. etkenlere bağlı olarak kayıp veriyi tamamlamada hangi yöntemin kullanılacağı değişkenlik göstermektedir. Temel araştırma niteliği taşıyan bu çalışmada farklı örneklem büyüklüğü ve farklı oranlarda kayıp veri içeren veri setleri 9 farklı kayıp veri yöntemi ile yeniden yapılandırılmış ve tam veri setleri ile betimsel istatistikler, güvenirlik ve geçerlik bakımından karşılaştırılarak hangi koşullar altında hangi yöntemlerin kullanılabilir olduğuna ilişkin çıkarımlarda bulunmak amaçlanmıştır. Araştırmada Uluslararası Öğrenci Değerlendirme Programı (PISA) verilerinden yararlanılmıştır. Veriler için PISA 2012 Türkiye örneklemi ve öğrenci ölçeklerinden normal dağılıma sahip, tek faktörlü“Matematik Çalışma Etiği (Math Work Ethic)”ölçeği seçilerek, analizler için rastgele 200, 500 ve 1000 kişilik çalışma grupları oluşturulmuştur. Tam veri setleri üzerinde, tamamıyla rassal olarak kayıp mekanizması altında %5, %10 ve %20 oranlarında silme işlemi gerçekleştirilmiştir. Kayıp verilerin yeniden yapılandırılması aşamasında seri ortalaması, yakın noktaların ortalaması, yakın noktaların medyanı, doğrusal değer kestirimi, noktanın doğrusal eğimi, liste bazında silme, beklenti maksimizasyonu, regresyon ataması ve çoklu atama yöntemleri kullanılmıştır. Kayıp veri yöntemleriyle karşılaştırmada tam veri setlerinden elde edilen betimsel istatistik, güvenirlik ve geçerliğe ilişkin değerler referans değerler olarak kullanılmıştır. Kayıp veri yöntemleri kullanılarak yapılandırılan yeni verilerden elde edilen değerler ile referans değerler karşılaştırılarak hangi yöntemin hangi koşullar altında diğerlerine göre daha kullanılabilir olduğuna ilişkin çıkarımlarda bulunulmuştur. Karşılaştırmalar bazı durumlar için betimsel düzeyde, bazı durumlar için t testi ve Fisher'in z testi kullanılmak suretiyle gerçekleştirilmiştir. Araştırma sonuçlarına göre farklı büyüklük ve farklı kayıp veri oranlarında, liste bazında silme yöntemi için elde edilen değerler, genel olarak tam veri setlerinden elde edilen değerlere en az benzerlik gösteren değerlerdir. Yaklaşık değer atama yöntemleri için elde edilen değerler kayıp veri oranının düşük olduğu durumlarda genel olarak tam veri setlerinden elde edilen değerlere yakın veya aynı değerleri verirken, tam veri setlerinden elde edilen değerlere çok yakın değer veren yöntemler beklenti maksimizasyonu, regresyon ataması ve çoklu atama yöntemleri olmuştur. Belirtilen yöntemler içerisinde özellikle çoklu atama yöntemi için elde edilen değerlerin, diğer yöntemlere göre, tam veri setlerinden elde edilen değerlere daha yakın sonuçlar verdiği görülmüştür. Betimsel karşılaştırmalarda bazı yöntemlerin diğerlerine göre kullanılabilirlik bakımından ön plana çıktığı görülse de yöntemler arasında büyük benzerliklerin olduğu sonucuna ulaşılmıştır.
Özet (Çeviri)
Missing data is often encountered by researchers. This problem negatively effects the results of researches and causes erroneous inferences. As a solution to this problem different missing data methods were developed. These methods which are used to complete the missing data differ depending on size of sample, quantity of missing data, mechanism of missing data etc.This research is a basic research and in which data sets with different sample size and different amount of missing data were used. The purpose of this study is to define the suitable methods for different conditions by comparing the complete data sets with data sets which are applied 9 different missing data methods, in terms of descriptive statistics, reliability and validity. For this research, Programme for International Students' Assesment (PISA) data were used. PISA 2012 Turkey sample and“Math Work Ethic”scale which was normally distributed and one factored, was selected and data sets which contained 200, 500 and 1000 data were formed at random. Then by using completely missing at random mechanism, %5, %10 and %20 of data were deleted from each data set. In order to complete these missing data, series mean, mean of nearby points, median of nearby points, linear interpolation, linear trend at point, listwise deletion, expectation maksimization, regression imputation and multiple imputation techniques were used. When comparing missing data methods, values obtained from descriptive statistics, reliability and validity were used as referance values. New data values which has been structured with missing data methods compared to referance values in order to make an inference about which method is suitable for different conditions. Some conditiones were compared in descriptive level, some conditiones were compared in terms of t-test and Fisher z test. The results of the study revealed that for different size and missing data rate, listwise deletion method values had the least similarity with the values obtained from complete data sets. Approximate value imputation methods (estimation) values had results which was close to the complete data set values or same with it when the quantity of missing data was low. The methods which had the closest values to values obtained from the complete data set were expectation maximization, regression imputation and multiple imputation. Multiple imputation method outperformed compared to the others. Although, in descriptive comparisons it was found that some methods were more at the forefront, there was no statistically significant difference between methods according to t-test and Fisher z test.
Benzer Tezler
- Türkçenin yabancı dil olarak öğretiminde kullanılan kitaplardaki kalıp söz ve deyim varlığı
Routines and idioms in the course books which are used for teaching Turkish as a foreing language
SENA ZORPUZAN
Yüksek Lisans
Türkçe
2018
Eğitim ve ÖğretimBolu Abant İzzet Baysal ÜniversitesiTürkçe Eğitimi Ana Bilim Dalı
PROF. DR. HALİT KARATAY
- Assessment of urbanization history of Addis Ababa city, Ethiopia
Addıs Ababa cıty, Ethıopıa'nın kentleşme tarihinin değerlendirilmesi
ABDURAHMAN HUSSEN YIMER
Yüksek Lisans
İngilizce
2023
Şehircilik ve Bölge PlanlamaMersin ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. ALİ CENAP YOLOĞLU
- Flüt eğitiminde dil tekniklerinin öğretimine yönelik durum analizi
A situation analysis on teaching tongue techniques in flute education
MERVE KARALI
Yüksek Lisans
Türkçe
2022
MüzikMuğla Sıtkı Koçman ÜniversitesiGüzel Sanatlar Eğitimi Ana Bilim Dalı
DOÇ. DR. GÜLCE COŞKUN ŞENTÜRK
- Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması
Classification with ensemble methods on missing and imbalanced data
ENİS GÜMÜŞTAŞ
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. AYÇA ÇAKMAK PEHLİVANLI
- Çoklu atama yöntemlerinin Rasch modelleri için performansının benzetim çalışması ile incelenmesi
Assessing the performance of multiple imputation techniques for Rasch models with a simulation study
BEYZA DOĞANAY ERDOĞAN
Doktora
Türkçe
2012
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. ATİLLA HALİL ELHAN