Geri Dön

Handling missingness, outliers and modeling in longitudinal data analysis

Longitudinal veri analizinde eksik gözlem, aykırı değer ve modelleme üzerine çalışma

  1. Tez No: 614566
  2. Yazar: MAROUA BEN GHOUL
  3. Danışmanlar: PROF. DR. BERNA YAZICI
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Longitudinal veriler, Semiparametrik model, Eksik veriler, Eksiklik mekanizmaları, Aykırı değerler, Dalgacık analizi, Sinir ağı, Longitudinal data, Semiparametric model, Missing data, Missingness mechanisms, Outliers, Wavelet analysis, Neural network
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Anadolu Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 144

Özet

Longitudinal veriler aynı konulara ait birkaç gözlemin zaman zaman aralıklarla toplanması ile oluşur. Bu verilerde; aşınma, aykırı değerler ve modellemenin karmaşıklığı yaygın görülen sorunlardır. Dolayısıyla, bu tezde bu sorunlar ana hatlarıyla ele alınmaktadır ve bu sorunları ortadan kaldırmak için üç ana bölümde farklı yaklaşımlar önermektedir. İlk bölümde eksik veri mekanizmalarının önemini vurgulanmaktadır ve ad hoc yöntemlere ve Maksimum Beklentı (MB) algoritmasına kıyasla Çok Katmanlı Algılayıcı (ÇKA) ile eksik verileri ele almak için yeni bir algoritma önerilmektedir. İkinci bölüm, aykırı değeri yanıltıcı bir veri değil istatistiksel verilerde, denekler içinde dalgacık ayrıştırması kullanan iki yeni algoritma önererek ve denekler arasında winsorisation yaklaşımını uygulayarak, kullanım kolaylığı olan bir algoritma sunulmasından ibarettir. Son bölüm, parametrik ve parametrik olmayan özellikleri birleştiren bir semiparametrik model inşa ederek modellemeye odaklanmaktadır. Modelin parametrik olmayan kısmı için, düzleştirme yaklaşımları gereklidir. Bu çalışmada, modelin düzeltilme için dalgacık analizi önerilmektedir. Önerilen algoritmaların etkinliğini araştırmak için gerçek bir longitudinal veri kümesi ve bu kümeden üretilen bir very seti kullanılmıştır. Sonuçlar, dalgacık ayrışmasının, pürüzsüzleştirici bir yaklaşım, aykırı noktaları belirleyen ve veri özelliklerinin orijinalliğini kaybetmeden bunları kullanma konusunda mikroskop gibi çalışan bir metod olduğunu ortaya koymuştur. Ayrıca, ÇKA'nın çıktı tahminleri üzerinden eksik veri ataması ile ilgili yeni algoritma, ad hoc yöntemlerinden daha iyi ve BM algoritmasından küçük bir farkla daha güçlü sonuçlar göstermiştir.

Özet (Çeviri)

Longitudinal data consists in gathering several observations of the same subjects intermittently over time. Attrition, outliers and complexity of modeling are common issues in longitudinal data. Therefore, this dissertation outlines those issues and proposes different approaches to overcome them by following three main pillars. First pillar emphasises the prominence of missingness mechanisms and suggests a novel algorithm to treat missing data via Multilayer Perceptron (MLP) with comparison to the ad hoc methods and Expectation Maximum (EM) algorithm. Second pillar consists in presenting outliers as a friendly subject in statistical data not a misleading dilemma, via proposing two novel algorithms using wavelet decomposition within subjects and across subjects along with applying the winsorisation approach within subjects. Last pillar concentrates on modeling via constructing a semiparametric model that combines parametric and nonparametric features. For the nonparametric part of the model, smoothing approaches are required. This research proposes wavelet analysis to smooth data. To examine the efficiency of the proposed algorithms, a real longitudinal dataset and a generated one, are utilized. The results revealed that wavelet decomposition has an impressive capacity as a smoothing approach and as a microscope figuring out the outliers and handling them without losing the originality of the data features. Also, the novel algorithm related to missing data imputation via the output predictions of MLP showed valuable results better than the ad hoc imputation methods and with very slight difference from the EM algorithm.

Benzer Tezler

  1. Methods for handling missing data for observational studies with repeated measurements

    Tekrarlayan ölçümlü gözlemsel araştırmalarda kayıp veri ile baş etme yöntemleri

    OYA KALAYCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2015

    BiyoistatistikUniversity of London - University College London

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. RUMANA OMAR

  2. Kayıp veri ile başa çıkma yöntemlerinin yapısal eşitlik modellerine etkisi

    The effect of missing data handling methods in structural equation models

    HAYDAR KARAMAN

    Doktora

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. BURCU ATAR

  3. Kayıp veri yöntemlerinin çoklu puanlanan çok boyutlu MTK modellerinde parametre kestirimlerine etkisi

    The effect of missing data methods on parameter estimation of polytomous multi-dimensional IRT models

    MEHMET ALİ IŞIKOĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. BURCU ATAR

  4. Metaheuristic approach for optimal data pre-processing method selection case study: Missing values handling

    Optimum veri ön işleme yöntemi seçimi için metasezgisel yaklaşimvaka çalişmasi: Eksik değerlerin ele alinmasi

    SAIED FARHAM NIA

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiSabancı Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. KEMAL KILIÇ

  5. A deep learning architecture for missing metabolite concentration prediction

    Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi

    SADİ ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÇAKMAK