Methods for handling missing data for observational studies with repeated measurements
Tekrarlayan ölçümlü gözlemsel araştırmalarda kayıp veri ile baş etme yöntemleri
- Tez No: 809903
- Danışmanlar: PROF. DR. RUMANA OMAR
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: University of London - University College London
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 205
Özet
Kayıp veriler, değişkenlerin tekrarlanarak ölçüldüğü boylamsal veri setlerinde sıklıkla karşılaşılan bir problemdir. Bağımsız değişkenlerde ortaya çıkan kayıp veriler ihmal edilirse, parametre tahminlerinin yansızlığını ve etkinliğini arttırmak için çoklu veri atama yöntemlerinin kullanılması önerilmektedir. Bu tezde, tekrarlayan ölçümler için çoklu veri atama yöntemleri incelenmiş ve geliştirilmiştir. Bu yöntemler farklı özelliklere sahip gerçek kayıp veri setleri için regresyon katsayıları tahminlerinin yanlılık ve etkinlik özellikleri açısından benzetim denemeleriyle karşılaştırılmıştır. Bu benzetim denemelerinde, Markov Zinciri Monte Carlo (MZMC) veri atama yöntemi sürekli değişkenlerin regresyon katsayıları için en yansız sonuçları üretmiştir. Tam Bayesçi çoklu veri atama yöntemi ise en etkin yöntemdir ve kayıp veriler normal dağılmayan değişkenlerde ortaya çıktıysa bu yöntem tercih edilebilir. Sıralı denklemlerle çoklu veri atama yöntemi ise eksik değişkenlerin tekrarlayan ölçümleri arasındaki korelasyona duyarlıdır ve bu nedenle tekrarlayan ölçümlerde dikkatle kullanılması önerilmektedir. Kayıp veriler içeren bir veri setinin analizi, kayıp verilerin ne kadar ihmal edilebilir olduğunu inceleyen duyarlılık analizi yapılmadan tamamlanmış olmaz. İhmal edilemeyen kayıp verilerin olduğu bir veri setini analiz etmek için örüntü karışım modelleri ve seçim modelleri kullanılabilir, ancak bu modellerin çözümlenmesi kayıp veriler bağımsız değişkenlerde ortaya çıktığı ve karmaşık kayıp veri örüntüsüyle karşılaşıldığı zaman oldukça güçtür. Bu tezde, bu modeller Bayesçi tahmin yöntemleri kullanılarak bu kapsamlarda geliştirilmiştir. Kayıp veriler, hem bağımlı hem de bağımsız değişkenlere ilişkin verilerin çeşitli zaman noktalarında tekrar tekrar toplandığı boylamsal gözlemsel çalışmalarda yaygındır. Bu tezdeki araştırma, eksik bağımlı ve bağımsız değişkenlere sahip, tekrarlanan ölçümlerle yapılan bir gözlemsel çalışmayla motive edilmiştir. Bağımsız değişkenlerdeki kayıp veriler, bağımlı değişkenin gözlemlenen değerleriyle ilişkili olduğunda, hem yanlılık hem de parametre tahminlerinin verimliliği sorunlarını hafifletmek için çoklu atama (ÇA) tekniklerinin kullanılması önerilmiştir. Bu tezde ÇA teknikleri gözden geçirilmiş, gerektiğinde kapsamı genişletilmiş ve tekrarlanan ölçüm çalışmalarında rassal kayıp veri varsayımı altında bağımsız değişkenler ortaya çıktığında en uygun ÇA yönteminin seçimini önermek amacıyla simülasyon çalışmaları kullanılarak regresyon katsayısı tahminlerinin yanlılığı ve verimliliği açısından karşılaştırılmıştır. Çok değişkenli normal atama (ÇDNA), çoğu durumda en az sapmayı üretmekte, teorik olarak iyi bir şekilde gerekçelendirilmekte ve atama modelinde tekrarlanan ölçümler için esnek korelasyona izin vermektedir. Bayesçi ÇA, aşırı yaygınlıklara sahip kategorik değişkenlerin atanması için etkilidir ve tercih edilebilir. Zincirlenmiş denklemler yaklaşımlarıyla atama (ZDA), tamamlanmamış değişkenlerin tekrarlanan ölçümleri arasındaki korelasyona duyarlıdır. Tam bir eksik veri analizi, rassal kayıp veri mekanizmasından sapmaları araştıran duyarlılık analizini gerektirir. Hem sonuç hem de bağımsız değişkenlerde rassal olmayan kayıp veri mekanizmasını ele almaya yönelik modeller iyi geliştirilmemiştir ve özellikle birden fazla eksik model olduğunda potansiyel olarak karmaşık olabilir. Bu tezde seçim modelleri ve örüntü karışımı modelleri, tamamen Bayes tahmin tekniği kullanılarak karışık tipte kayıp örüntüleri ile zamanla değişen bağımlı ve bağımsız değişkenlerdeki rassal olmayan kayıp veri mekanizmasını barındıracak şekilde genişletilmiştir. Simülasyon çalışması göstermiştir ki, kayıp veri mekanizmasının gerçek şekli belirlendiğinde ve kayıp veriye neden olan değişkenler kayıp veri modellerinde kullanıldığında, parametre tahminleri standart yöntemlerin kullanılmasına göre daha az yanlı olmaktadır. Kayıp veri parametrelerinin gerçek değerleri, bilgilendirici önsel dağılımlar kullanılarak kayıp veri modellerine dahil edilirse yanlılık azaltılabilir.
Özet (Çeviri)
Missing data is common in longitudinal observational studies where, data on both outcome and explanatory variables are collected repeatedly at several time points. The research in this thesis is motivated by the repeated measurements observational study with incomplete outcome and explanatory variables. When the missing values on the explanatory variables are related to the observed values of the outcome, it has been recommended to use multiple imputation (MI) techniques to alleviate the problems of both bias and the efficiency of the parameter estimates. In this thesis MI techniques were reviewed, extended where necessary and compared regarding the bias and efficiency of the regression coefficient estimates using simulation studies in order to suggest the choice of the most optimal MI method when MAR explanatory variables occur in repeated measurements studies. Multivariate normal imputation (MVNI) produced the least bias in most situations, is theoretically well justified and allows flexible correlation for the repeated measurements in the imputation model. Bayesian MI is efficient and maybe preferable for imputing categorical variables with extreme prevalences. Imputation by chained equations (ICE) approaches were sensitive to the correlation between the repeated measurements of the incomplete variables. A complete missing data analysis requires sensitivity analysis which investigates the departures from MAR mechanism. Models for handling MNAR in both outcome and explanatory variables are not well developed and can potentially be complicated, especially when there are several missingness patterns. In this thesis selection modelling and pattern mixture modelling frameworks are extended to accommodate MNAR mechanism on time-varying outcome and explanatory variables, with mixed type of missingness patterns using fully Bayesian estimation technique. The investigations suggested that, when the true form of missingness mechanism is specified and the variables that cause missingness are used in the missingness models, the parameter estimates will be less biased than using standard MAR methods. The bias can be reduced, if the true values of missingness parameters are incorporated into the missingness models using informative priors.
Benzer Tezler
- Kayıp veriler ve kayıp veriler için bir çoklu veri atama yöntemi: Propensity skor
Missing data and a multiple imputation method for missing data: Propensity score
ELİF ÇİĞDEM KASPAR
- Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- A dynamic risk assessment methodology (Dy-RAM) in port waters
Liman sularında dinamik risk değerlendirme (Dy-RAM) metodolojisi
ÜLKÜ ÖZTÜRK
Doktora
İngilizce
2019
Denizcilikİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KADİR ÇİÇEK
- Comparison of missing data imputation methods applied to daily temperature and precipitation data in Turkey
Türkiye'de günlük sıcaklık ve yağış verilerine uygulanan kayıp veri atama yöntemlerinin karşılaştırılması
DİDEM GEZGEN
Yüksek Lisans
İngilizce
2023
İstatistikOrta Doğu Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. CEYLAN YOZGATLIGİL