Kayıp veri analiz yöntemlerinin karşılaştırılması
The comparison of missing value analysis methods
- Tez No: 392105
- Danışmanlar: YRD. DOÇ. DR. NACİ MURAT
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Kayıp Veri, Kayıp Veri Analizi, Çoklu Değer Atama, Rastgele Kayıp, Missing Value, Missing Value Analysis, Multiple Imputation, Missing At Random
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Ondokuz Mayıs Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
İstatistiksel çalışmalarda kayıp veri ile çok sık karşılaşılmaktadır. Kayıp verinin çokluğu örneklem sayısını düşürdüğünden istatistiksel çalışmaları etkiler, testin gücünü azaltır. Kayıp veri çeşitli nedenlerle ortaya çıkabilir. Kayıp veri durumu çalışmayı yürüten kişiden, veri toplanan kişinin bilerek cevap vermemesinden, eksik bilgilendirmeden, verilerin gözlenememesinden, soruların anlaşılamamasından, birimlerin çalışmadan ayrılmasından, kişinin çalışma süresi içinde hayatını kaybetmesi gibi sebeplerden ortaya çıkabilir. Literatürde farklı kayıp veri türleri mevcuttur. Bunlar içinde en sık kullanılan kayıp veri türleri tamamen rastgele kayıp (missing completely at random-MCAR), rastgele kayıp (missing at random-MAR) ve rastgele olmayan kayıp (missing not at random-MNAR) dır. Kayıp veri durumunda genelde kullanılan yöntem kayıp verileri uygun kayıp veri analizi yöntemleriyle tahmin etmek ve tamalanmış veri setini istatistiksel yöntemlerle analiz etmektir. Literatürde çeşitli kayıp veri analizi yöntemleri vardır. Bu yöntemler iki ana başlık altında toplanır. Bunlar; kayıp değer içeren gözlemlerin silinmesini içeren yöntemler ve kayıp değerler yerine uygun değer atayan yöntemlerdir. Kayıp değerli gözlemleri silme yöntemine liste bazında silme (listwise deletion) olarak da adlandırılan eksiksiz veri analizi (complete case analysis) ve çiftler bazında silme (pairwise deletion) yöntemleridir. Kayıp değer yerine değer atayan yöntemler ise ortalama değer atama (mean imputation), regresyon değer atama (regression imputation), EM algoritması (EM algorithm) ve çoklu değer atama (multiple imputation) yöntemleridir. Bu çalışmada kayıp veri setleri için kayıp veri tahmin yöntemleri kullanılarak, elde edilen sonuçlar karşılaştırıldı.
Özet (Çeviri)
In statistical studies it is encountered with missing data very often. As the multiplicity of missing data reduces the samples in general,the statistical studies are affected and the power of test goes down. Missing data comes out for a variety of reasons such as from researcher,misinformation of people of this study volunteerly,not able to observe data,misunderstanding of questions,inefficient studies of units,passing away of the researcher during the studies. In literature there are different variety of missing data types. Among them the most common used ones are missing at random, missing completely at random and missing not at random. The general method in the event of missing data;guessing the missing data with the correct missing data analysis method and analyse the completed data set by using statistical methods. In literature there are variety of missing data analysis methods. We can collect them under two headings. One of them is the deleting of observations which include missing values and the other one is initializing correct values instead of missing values. The method of deleting missing valuable observations is named listwise deletion or complete case analysis and the other method is pairwase deletion. The methods initializing correct values instead of missing values are mean imputation,regression imputation, EM algorithm and multiple imputation. In this study by carrying out missing data sets and missing data prediction methods, the results after getting these studies were compared.
Benzer Tezler
- ABİDE 2016 fen başarısının yordanmasında MARS ve BRT veri madenciliği yöntemlerinin karşılaştırılması
Predicting the ABIDE 2016 science achievement: The comparison of MARS and BRT data mining methods
HİKMET ŞEVGİN
Doktora
Türkçe
2020
Eğitim ve ÖğretimGazi ÜniversitesiEğitimde Ölçme ve Değerlendirme Ana Bilim Dalı
DOÇ. DR. EMİNE ÖNEN
- Öğrencilerin PISA matematik başarılarının yordanmasında veri madenciliği yöntemlerinin karşılaştırılması
Comparison of data mining methods in predicting PISA mathematical achievements of students
İLHAN KOYUNCU
Doktora
Türkçe
2018
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. SELAHATTİN GELBAL
- Makine öğrenmesinde değişken seçim yöntemlerinin karşılaştırılması: Ev enerjisi tüketim tahmini
Comparison of variable selection in machine learning methods: Household energy consumption estimation
NURİ BERK URAL
Yüksek Lisans
Türkçe
2024
İstatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. MERAL ÇETİN
- A comparison of deep neural network architectures for COVID-19 detection using CT chest images
Göğüs BT görüntüleriyle COVID-19 tespitinde derin sinir ağı mimarilerinin karşılaştırılması
MEHMET TUNAHAN SARIOĞLU
Yüksek Lisans
İngilizce
2022
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
PROF. DR. ÜNAL ERKAN MUMCUOĞLU
- Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması
Classification with ensemble methods on missing and imbalanced data
ENİS GÜMÜŞTAŞ
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. AYÇA ÇAKMAK PEHLİVANLI