Handling missingness, outliers and modeling in longitudinal data analysis
Longitudinal veri analizinde eksik gözlem, aykırı değer ve modelleme üzerine çalışma
- Tez No: 614566
- Danışmanlar: PROF. DR. BERNA YAZICI
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Longitudinal veriler, Semiparametrik model, Eksik veriler, Eksiklik mekanizmaları, Aykırı değerler, Dalgacık analizi, Sinir ağı, Longitudinal data, Semiparametric model, Missing data, Missingness mechanisms, Outliers, Wavelet analysis, Neural network
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Anadolu Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 144
Özet
Longitudinal veriler aynı konulara ait birkaç gözlemin zaman zaman aralıklarla toplanması ile oluşur. Bu verilerde; aşınma, aykırı değerler ve modellemenin karmaşıklığı yaygın görülen sorunlardır. Dolayısıyla, bu tezde bu sorunlar ana hatlarıyla ele alınmaktadır ve bu sorunları ortadan kaldırmak için üç ana bölümde farklı yaklaşımlar önermektedir. İlk bölümde eksik veri mekanizmalarının önemini vurgulanmaktadır ve ad hoc yöntemlere ve Maksimum Beklentı (MB) algoritmasına kıyasla Çok Katmanlı Algılayıcı (ÇKA) ile eksik verileri ele almak için yeni bir algoritma önerilmektedir. İkinci bölüm, aykırı değeri yanıltıcı bir veri değil istatistiksel verilerde, denekler içinde dalgacık ayrıştırması kullanan iki yeni algoritma önererek ve denekler arasında winsorisation yaklaşımını uygulayarak, kullanım kolaylığı olan bir algoritma sunulmasından ibarettir. Son bölüm, parametrik ve parametrik olmayan özellikleri birleştiren bir semiparametrik model inşa ederek modellemeye odaklanmaktadır. Modelin parametrik olmayan kısmı için, düzleştirme yaklaşımları gereklidir. Bu çalışmada, modelin düzeltilme için dalgacık analizi önerilmektedir. Önerilen algoritmaların etkinliğini araştırmak için gerçek bir longitudinal veri kümesi ve bu kümeden üretilen bir very seti kullanılmıştır. Sonuçlar, dalgacık ayrışmasının, pürüzsüzleştirici bir yaklaşım, aykırı noktaları belirleyen ve veri özelliklerinin orijinalliğini kaybetmeden bunları kullanma konusunda mikroskop gibi çalışan bir metod olduğunu ortaya koymuştur. Ayrıca, ÇKA'nın çıktı tahminleri üzerinden eksik veri ataması ile ilgili yeni algoritma, ad hoc yöntemlerinden daha iyi ve BM algoritmasından küçük bir farkla daha güçlü sonuçlar göstermiştir.
Özet (Çeviri)
Longitudinal data consists in gathering several observations of the same subjects intermittently over time. Attrition, outliers and complexity of modeling are common issues in longitudinal data. Therefore, this dissertation outlines those issues and proposes different approaches to overcome them by following three main pillars. First pillar emphasises the prominence of missingness mechanisms and suggests a novel algorithm to treat missing data via Multilayer Perceptron (MLP) with comparison to the ad hoc methods and Expectation Maximum (EM) algorithm. Second pillar consists in presenting outliers as a friendly subject in statistical data not a misleading dilemma, via proposing two novel algorithms using wavelet decomposition within subjects and across subjects along with applying the winsorisation approach within subjects. Last pillar concentrates on modeling via constructing a semiparametric model that combines parametric and nonparametric features. For the nonparametric part of the model, smoothing approaches are required. This research proposes wavelet analysis to smooth data. To examine the efficiency of the proposed algorithms, a real longitudinal dataset and a generated one, are utilized. The results revealed that wavelet decomposition has an impressive capacity as a smoothing approach and as a microscope figuring out the outliers and handling them without losing the originality of the data features. Also, the novel algorithm related to missing data imputation via the output predictions of MLP showed valuable results better than the ad hoc imputation methods and with very slight difference from the EM algorithm.
Benzer Tezler
- Methods for handling missing data for observational studies with repeated measurements
Tekrarlayan ölçümlü gözlemsel araştırmalarda kayıp veri ile baş etme yöntemleri
OYA KALAYCIOĞLU
Doktora
İngilizce
2015
BiyoistatistikUniversity of London - University College LondonBiyoistatistik Ana Bilim Dalı
PROF. DR. RUMANA OMAR
- Kayıp veri ile başa çıkma yöntemlerinin yapısal eşitlik modellerine etkisi
The effect of missing data handling methods in structural equation models
HAYDAR KARAMAN
Doktora
Türkçe
2022
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. BURCU ATAR
- Kayıp veri yöntemlerinin çoklu puanlanan çok boyutlu MTK modellerinde parametre kestirimlerine etkisi
The effect of missing data methods on parameter estimation of polytomous multi-dimensional IRT models
MEHMET ALİ IŞIKOĞLU
Doktora
Türkçe
2024
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. BURCU ATAR
- Metaheuristic approach for optimal data pre-processing method selection case study: Missing values handling
Optimum veri ön işleme yöntemi seçimi için metasezgisel yaklaşimvaka çalişmasi: Eksik değerlerin ele alinmasi
SAIED FARHAM NIA
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiSabancı ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. KEMAL KILIÇ
- A deep learning architecture for missing metabolite concentration prediction
Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi
SADİ ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ ÇAKMAK