Geri Dön

Handling missingness, outliers and modeling in longitudinal data analysis

Longitudinal veri analizinde eksik gözlem, aykırı değer ve modelleme üzerine çalışma

  1. Tez No: 614566
  2. Yazar: MAROUA BEN GHOUL
  3. Danışmanlar: PROF. DR. BERNA YAZICI
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Longitudinal veriler, Semiparametrik model, Eksik veriler, Eksiklik mekanizmaları, Aykırı değerler, Dalgacık analizi, Sinir ağı, Longitudinal data, Semiparametric model, Missing data, Missingness mechanisms, Outliers, Wavelet analysis, Neural network
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Anadolu Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 144

Özet

Longitudinal veriler aynı konulara ait birkaç gözlemin zaman zaman aralıklarla toplanması ile oluşur. Bu verilerde; aşınma, aykırı değerler ve modellemenin karmaşıklığı yaygın görülen sorunlardır. Dolayısıyla, bu tezde bu sorunlar ana hatlarıyla ele alınmaktadır ve bu sorunları ortadan kaldırmak için üç ana bölümde farklı yaklaşımlar önermektedir. İlk bölümde eksik veri mekanizmalarının önemini vurgulanmaktadır ve ad hoc yöntemlere ve Maksimum Beklentı (MB) algoritmasına kıyasla Çok Katmanlı Algılayıcı (ÇKA) ile eksik verileri ele almak için yeni bir algoritma önerilmektedir. İkinci bölüm, aykırı değeri yanıltıcı bir veri değil istatistiksel verilerde, denekler içinde dalgacık ayrıştırması kullanan iki yeni algoritma önererek ve denekler arasında winsorisation yaklaşımını uygulayarak, kullanım kolaylığı olan bir algoritma sunulmasından ibarettir. Son bölüm, parametrik ve parametrik olmayan özellikleri birleştiren bir semiparametrik model inşa ederek modellemeye odaklanmaktadır. Modelin parametrik olmayan kısmı için, düzleştirme yaklaşımları gereklidir. Bu çalışmada, modelin düzeltilme için dalgacık analizi önerilmektedir. Önerilen algoritmaların etkinliğini araştırmak için gerçek bir longitudinal veri kümesi ve bu kümeden üretilen bir very seti kullanılmıştır. Sonuçlar, dalgacık ayrışmasının, pürüzsüzleştirici bir yaklaşım, aykırı noktaları belirleyen ve veri özelliklerinin orijinalliğini kaybetmeden bunları kullanma konusunda mikroskop gibi çalışan bir metod olduğunu ortaya koymuştur. Ayrıca, ÇKA'nın çıktı tahminleri üzerinden eksik veri ataması ile ilgili yeni algoritma, ad hoc yöntemlerinden daha iyi ve BM algoritmasından küçük bir farkla daha güçlü sonuçlar göstermiştir.

Özet (Çeviri)

Longitudinal data consists in gathering several observations of the same subjects intermittently over time. Attrition, outliers and complexity of modeling are common issues in longitudinal data. Therefore, this dissertation outlines those issues and proposes different approaches to overcome them by following three main pillars. First pillar emphasises the prominence of missingness mechanisms and suggests a novel algorithm to treat missing data via Multilayer Perceptron (MLP) with comparison to the ad hoc methods and Expectation Maximum (EM) algorithm. Second pillar consists in presenting outliers as a friendly subject in statistical data not a misleading dilemma, via proposing two novel algorithms using wavelet decomposition within subjects and across subjects along with applying the winsorisation approach within subjects. Last pillar concentrates on modeling via constructing a semiparametric model that combines parametric and nonparametric features. For the nonparametric part of the model, smoothing approaches are required. This research proposes wavelet analysis to smooth data. To examine the efficiency of the proposed algorithms, a real longitudinal dataset and a generated one, are utilized. The results revealed that wavelet decomposition has an impressive capacity as a smoothing approach and as a microscope figuring out the outliers and handling them without losing the originality of the data features. Also, the novel algorithm related to missing data imputation via the output predictions of MLP showed valuable results better than the ad hoc imputation methods and with very slight difference from the EM algorithm.

Benzer Tezler

  1. The imputation of missingness in cyclic and non-cyclic electromyography signaling data

    Döngüsel ve döngüsüz elektromiyografi sinyali verilerinde eksikliklerin impütasyonu

    FATEMEH SARASIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    BiyoistatistikOrta Doğu Teknik Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. VİLDA PURUTÇUOĞLU

    DOÇ. DR. FİKRET ARI

  2. Methods for handling missing data for observational studies with repeated measurements

    Tekrarlayan ölçümlü gözlemsel araştırmalarda kayıp veri ile baş etme yöntemleri

    OYA KALAYCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2015

    BiyoistatistikUniversity of London - University College London

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. RUMANA OMAR

  3. Kayıp veri ile başa çıkma yöntemlerinin yol analizine ilişkin model uyum indeksleri açısından incelenmesi

    An investigation of missing data handling methods in terms of model fit indices in path analysis

    ELİF ALADAĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Eğitim ve ÖğretimBolu Abant İzzet Baysal Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. CEREN MUTLUER

  4. Kayıp veri ile başa çıkma yöntemlerinin yapısal eşitlik modellerine etkisi

    The effect of missing data handling methods in structural equation models

    HAYDAR KARAMAN

    Doktora

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. BURCU ATAR

  5. Kayıp veri yöntemlerinin çoklu puanlanan çok boyutlu MTK modellerinde parametre kestirimlerine etkisi

    The effect of missing data methods on parameter estimation of polytomous multi-dimensional IRT models

    MEHMET ALİ IŞIKOĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. BURCU ATAR