Nadir olaylarda cezalandırılmış lojistik regresyon yöntemlerinin karşılaştırılması
Comparison of penalized logistic regression methods in rare events
- Tez No: 614134
- Danışmanlar: PROF. DR. SEMRA ERBAŞ
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 131
Özet
İkili lojistik regresyon (LR) yöntemi, yanıt değişkeni iki mümkün sonuca sahip olduğunda yaygın olarak kullanılan çok değişkenli istatistiksel bir yöntemdir. Örnek hacminin küçük ve ilgilenilen olayın nadir olduğu durumlarda LR yöntemi için en çok olabilirlik tahminleri tam olarak elde edilememektedir. Firth (1993), hem bu tahmin problemini hem de birinci mertebeden asimtotik yanlılığı ortadan kaldıran cezalandırılmış bir yöntem olarak Firth lojistik regresyon (FLR) yöntemini önermiştir. Daha sonra, FLR yöntemi kestirilen olasılıklara ilişkin sonuçlarda aşırı tahmine sebep olduğu için, Puhr ve diğerleri (2017) sabit terim düzeltmeli Firth lojistik regresyon (FLIC) yöntemini önermiştir. Öte yandan, ilgilenilen olay nadir iken açıklayıcı değişkenler arasında çoklu bağlantının olduğu durum için Shen ve Gao (2008) iki kat cezalandırılmış lojistik regresyon (DPLR) yöntemini önermişlerdir. Ancak, bu yöntem yine de kestirilen olasılıklarda aşırı tahmine sebep olmaktadır. Bu çalışmada, FLIC ve DPLR yöntemlerinden yola çıkarak sabit terim düzeltmeli iki kat cezalandırılmış lojistik regresyon (MDPLR) yöntemi yeni bir yaklaşım olarak önerilmiştir. MDPLR yöntemi ile LR, Ridge lojistik regresyon (RLR), FLR, DPLR, zayıflatılmış Firth lojistik regresyon (WFLR), FLIC ve eş değişken eklenmiş Firth lojistik regresyon (FLAC) yöntemleri parametreye ilişkin ortalama tahmin edilen yan, ortalama kestirilen olasılık yan, standart hatalar ve ortalama RMSE bakımından karşılaştırılmıştır. Modelde farklı sayıda açıklayıcı değişken olduğu durumlar ele alınarak, farklı örnek hacimleri ve farklı nadir olay oranlarına ek olarak çoklu bağlantının olduğu ve olmadığı durumlar için detaylı bir Monte Carlo simülasyon çalışması yürütülmüştür. Gözlemsel veriye dayalı ters koşullu dağılım kullanılarak ele alınan veri üretim yaklaşımı, literatürde ilk kez cezalandırılmış LR yöntemleri için kullanılmıştır. Ayrıca, gerçek bir veri seti ile simülasyon sonuçları değerlendirilmiştir. Sonuçlara göre, parametreye ilişkin istatistiksel çıkarsama yapmak için FLAC, DPLR ve MDPLR yöntemlerinin kullanılması ve kestirilen olasılık üzerine çalışmalar için FLIC, FLAC, RLR ve MDPLR yöntemlerinin kullanılması önerilmiştir.
Özet (Çeviri)
Binary logistic regression (LR) method is a widely used multivariate statistical method when response variable has two possible outcomes. Maximum likelihood estimations cannot be exactly obtained for LR method in the cases where sample size is small and event of interest is rare. Firth (1993) suggested Firth's logistic regression (FLR) as a method which eliminates both this estimation problem and first order term of the asymtotic bias. Then, Puhr et al. (2017) suggested Firth's logistic regression with intercept correction because FLR method causes overestimation in predicted probability. On the other hand, Shen and Gao (2008) suggested double penalized logistic regression (DPLR) method for the case where rare event and multicollinearity occur simultaneously. However, this method has already caused overestimation in predicted probability. In this study, DPLR with intercept correction (MDPLR) method was suggested as a new approach considering FLIC and DPLR methods. MDPLR method was compared with LR, Ridge logistic regression (RLR), FLR, DPLR, weakened FLR (WFLR), FLIC and Firth's logistic regression with added covariate (FLAC) in terms of parameter estimation bias, average predicted probability bias, standard errors and average root mean suared error (RMSE). A detailed Monte Carlo simulation study was conducted considering that there are different number of explanatory variables in the model for multicollinearity and non-multicollinearity cases in addition to the different sample sizes and rare event rates. Data generation approach using inverse conditional distribution based on observational data was first used in the literature for penalized LR methods. Besides, simulation results were evaluated with a real data set. According to the results, it is recommended to use FLAC, DPLR, and MDPLR methods for statistical inferences on the parameter and to use with FLIC, FLAC, RLR, and MDPLR methods for studies on predicted probability.
Benzer Tezler
- Bebek ölüm oranlarının sosyoekonomik belirleyicileri
Socio-economic determinants of infant mortality rates
HASAN HÜSEYİN DER
Yüksek Lisans
Türkçe
2020
EkonomiPamukkale Üniversitesiİktisat Ana Bilim Dalı
PROF. DR. MUHAMMET ENSAR YEŞİLYURT
- The Transformation of the politics of punishment and the birth of prison in the Ottoman Empire (1845-1910)
Osmanlı Devletinde ceza siyaseti dönüşümü ve hapishanenin doğuşu
HASAN ŞEN
- Nadir görülen olayların meta-analizinde süreklilik düzeltmeleri ve peto yönteminin karşılaştırılması
Comparison of continuity corrections and peto method in meta-analysis of rare events
BETÜL ARSLAN
Yüksek Lisans
Türkçe
2024
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. PINAR ÖZDEMİR
- Anaplastik büyük hücreli lenfomada CD99 immünekspresyonunun klinikopatolojik parametreler ile ilişkisi
Relation between cd99 immunexpression and clinicopathologic parameters in anaplastic large cell lympoma.
NAİLE AŞIK
Tıpta Uzmanlık
Türkçe
2011
PatolojiUludağ ÜniversitesiPatoloji Ana Bilim Dalı
YRD. DOÇ. DR. HÜLYA ÖZTÜRK NAZLIOĞLU
- Haçlı Seferleri ve Doğu Hıristiyanları
Crusades and East Chrstian
TUĞBA AKIN
Yüksek Lisans
Türkçe
2011
TarihCelal Bayar ÜniversitesiOrtaçağ Tarihi Ana Bilim Dalı
PROF. DR. NADİR ÖZKUYUMCU