Handling missingness, outliers and modeling in longitudinal data analysis

Longitudinal veri analizinde eksik gözlem, aykırı değer ve modelleme üzerine çalışma

PDF İndir

Tez No: 614566
Yazar: MAROUA BEN GHOUL
Danışmanlar: PROF. DR. BERNA YAZICI
Tez Türü: Doktora
Konular: İstatistik, Statistics
Anahtar Kelimeler: Longitudinal veriler, Semiparametrik model, Eksik veriler, Eksiklik mekanizmaları, Aykırı değerler, Dalgacık analizi, Sinir ağı, Longitudinal data, Semiparametric model, Missing data, Missingness mechanisms, Outliers, Wavelet analysis, Neural network
Yıl: 2019
Dil: İngilizce
Üniversite: Anadolu Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 144

Özet

Longitudinal veriler aynı konulara ait birkaç gözlemin zaman zaman aralıklarla toplanması ile oluşur. Bu verilerde; aşınma, aykırı değerler ve modellemenin karmaşıklığı yaygın görülen sorunlardır. Dolayısıyla, bu tezde bu sorunlar ana hatlarıyla ele alınmaktadır ve bu sorunları ortadan kaldırmak için üç ana bölümde farklı yaklaşımlar önermektedir. İlk bölümde eksik veri mekanizmalarının önemini vurgulanmaktadır ve ad hoc yöntemlere ve Maksimum Beklentı (MB) algoritmasına kıyasla Çok Katmanlı Algılayıcı (ÇKA) ile eksik verileri ele almak için yeni bir algoritma önerilmektedir. İkinci bölüm, aykırı değeri yanıltıcı bir veri değil istatistiksel verilerde, denekler içinde dalgacık ayrıştırması kullanan iki yeni algoritma önererek ve denekler arasında winsorisation yaklaşımını uygulayarak, kullanım kolaylığı olan bir algoritma sunulmasından ibarettir. Son bölüm, parametrik ve parametrik olmayan özellikleri birleştiren bir semiparametrik model inşa ederek modellemeye odaklanmaktadır. Modelin parametrik olmayan kısmı için, düzleştirme yaklaşımları gereklidir. Bu çalışmada, modelin düzeltilme için dalgacık analizi önerilmektedir. Önerilen algoritmaların etkinliğini araştırmak için gerçek bir longitudinal veri kümesi ve bu kümeden üretilen bir very seti kullanılmıştır. Sonuçlar, dalgacık ayrışmasının, pürüzsüzleştirici bir yaklaşım, aykırı noktaları belirleyen ve veri özelliklerinin orijinalliğini kaybetmeden bunları kullanma konusunda mikroskop gibi çalışan bir metod olduğunu ortaya koymuştur. Ayrıca, ÇKA'nın çıktı tahminleri üzerinden eksik veri ataması ile ilgili yeni algoritma, ad hoc yöntemlerinden daha iyi ve BM algoritmasından küçük bir farkla daha güçlü sonuçlar göstermiştir.

Özet (Çeviri)

Longitudinal data consists in gathering several observations of the same subjects intermittently over time. Attrition, outliers and complexity of modeling are common issues in longitudinal data. Therefore, this dissertation outlines those issues and proposes different approaches to overcome them by following three main pillars. First pillar emphasises the prominence of missingness mechanisms and suggests a novel algorithm to treat missing data via Multilayer Perceptron (MLP) with comparison to the ad hoc methods and Expectation Maximum (EM) algorithm. Second pillar consists in presenting outliers as a friendly subject in statistical data not a misleading dilemma, via proposing two novel algorithms using wavelet decomposition within subjects and across subjects along with applying the winsorisation approach within subjects. Last pillar concentrates on modeling via constructing a semiparametric model that combines parametric and nonparametric features. For the nonparametric part of the model, smoothing approaches are required. This research proposes wavelet analysis to smooth data. To examine the efficiency of the proposed algorithms, a real longitudinal dataset and a generated one, are utilized. The results revealed that wavelet decomposition has an impressive capacity as a smoothing approach and as a microscope figuring out the outliers and handling them without losing the originality of the data features. Also, the novel algorithm related to missing data imputation via the output predictions of MLP showed valuable results better than the ad hoc imputation methods and with very slight difference from the EM algorithm.

Benzer Tezler

Tez No
920453
The imputation of missingness in cyclic and non-cyclic electromyography signaling data
Döngüsel ve döngüsüz elektromiyografi sinyali verilerinde eksikliklerin impütasyonu
FATEMEH SARASIR
Yüksek Lisans
İngilizce
2024
Biyoistatistik Orta Doğu Teknik Üniversitesi
Biyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. VİLDA PURUTÇUOĞLU
DOÇ. DR. FİKRET ARI
Tez No
809903
Methods for handling missing data for observational studies with repeated measurements
Tekrarlayan ölçümlü gözlemsel araştırmalarda kayıp veri ile baş etme yöntemleri
OYA KALAYCIOĞLU
Doktora
İngilizce
2015
Biyoistatistik University of London - University College London
Biyoistatistik Ana Bilim Dalı
PROF. DR. RUMANA OMAR
Tez No
940538
Kayıp veri ile başa çıkma yöntemlerinin yol analizine ilişkin model uyum indeksleri açısından incelenmesi
An investigation of missing data handling methods in terms of model fit indices in path analysis
ELİF ALADAĞ
Yüksek Lisans
Türkçe
2025
Eğitim ve Öğretim Bolu Abant İzzet Baysal Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. CEREN MUTLUER
Tez No
723050
Kayıp veri ile başa çıkma yöntemlerinin yapısal eşitlik modellerine etkisi
The effect of missing data handling methods in structural equation models
HAYDAR KARAMAN
Doktora
Türkçe
2022
Eğitim ve Öğretim Hacettepe Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. BURCU ATAR
Tez No
857151
Kayıp veri yöntemlerinin çoklu puanlanan çok boyutlu MTK modellerinde parametre kestirimlerine etkisi
The effect of missing data methods on parameter estimation of polytomous multi-dimensional IRT models
MEHMET ALİ IŞIKOĞLU
Doktora
Türkçe
2024
Eğitim ve Öğretim Hacettepe Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. BURCU ATAR

Geri Dön