Geri Dön

En çok olabilirlik tahminlerinde yan azaltma yaklaşımı

Bias reduction approach in maximum likelihood estimates

  1. Tez No: 951967
  2. Yazar: SİMGE KAVAK
  3. Danışmanlar: PROF. DR. SERPİL AKTAŞ ALTUNAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Yan Azaltıcı Yöntemler, En Çok Olabilirlik Tahmini (EÇOB), Yan, Varyans, Hata Kareler Ortalaması (HKO), Bias Reduction Methods, Maximum Likelihood Estimation (MLE), Bias, Variance, Mean Squared Error (MSE)
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

İstatistik metodolojisinde yan, tahmin edilen değer ile gerçek parametre arasındaki sistematik fark olarak tanımlanır ve modelin geçerliliğini doğrudan etkileyebilir. Bu nedenle, tahmin yanlılığını azaltmaya yönelik yöntemlerin değerlendirilmesi, hem akademik hem de uygulamalı araştırmalarda güvenilir sonuçlara ulaşmak açısından büyük önem taşımaktadır. Bu tez çalışmasında, istatistiksel modellemede parametre tahminine yönelik olarak kullanılan farklı yöntemlerin, özellikle küçük örneklem ve dengesiz/dengeli sınıf yapılarında sergilediği performanslar karşılaştırmalı olarak incelenmiştir. Geleneksel olarak yaygın biçimde kullanılan En Çok Olabilirlik (EÇOB) (Maximum Likelihood Estimation – MLE) tahmin yöntemi, büyük örneklemler altında tutarlı ve etkili sonuçlar sağlarken; küçük örneklem büyüklüğü, yüksek korelasyonlu değişken yapıları veya sınıf dengesizliği gibi durumlarda tahmin yanlılığı (bias) sorunu ortaya çıkarabilmektedir. Bu çalışmada, EÇOB yöntemine dayanan klasik lojistik regresyon modeline alternatif olarak geliştirilen ve tahmin yanlılığını azaltmayı amaçlayan Firth düzeltmeli lojistik regresyon, Bayesci lojistik regresyon, ve düzenlileştirme tekniklerine dayanan Ridge, Lasso ve Elastic Net regresyon yöntemleri ile birlikte, yan tahminlerini düzeltmeye yönelik Bootstrap ve Jackknife gibi yeniden örnekleme (resampling) temelli yaklaşımlar da detaylı şekilde ele alınmıştır. Analizlerde hem simülasyon verileri hem de iki farklı gerçek veri seti kullanılmıştır. Simülasyon veri seti üzerine parametre tahmini veren yöntemlerden Klasik, Firth Düzeltmeli ve Bayesci lojistik regresyon yöntemleri uygulanmış; parametre tahmini vermeyen yöntemlerden ise düzenlileştirme tekniklerine dayanan Ridge, Lasso, Elastic Net regresyon yöntemleri, yeniden örnekleme tekniklerine dayanan Bootstrap ve Jackknife yöntemleri uygulanmıştır. Gerçek veri setlerine ise Bootstrap lojistik regresyon ve Jackknife lojistik regresyon yöntemleri hariç bahsedilen diğer tüm yöntemler uygulanmıştır. Bu tez çalışmasında hem simülasyon çalışması ile hem de gerçek veri setlerine dayalı analizlerle farklı istatistiksel tahmin yöntemlerinin performansları karşılaştırılmıştır. Simülasyon verilerinde, küçük örneklemlerde ( 𝑛 =25) en güvenilir sonuçlar Firth düzeltmeli lojistik regresyon ile elde edilirken, örneklem boyutu arttıkça klasik lojistik regresyon yöntemi daha güçlü ve anlamlı sonuçlar üretmiştir. Bayesci lojistik regresyon yöntemi ise teorik olarak esnek bir yapı sunsa da, geniş güven aralıkları ve düşük anlamlılık düzeyi nedeniyle parametre yorumlamalarında zayıf kalmıştır. Parametre tahmini yapmayan yöntemler arasında ise küçük örneklem büyüklüklerinde Bootstrap ve Jackknife yöntemleri daha düşük yan ve hata oranlarıyla öne çıkmıştır. Özellikle Bootstrap yöntemi, tüm örneklem seviyelerinde istikrarlı bir şekilde düşük hata oranı sağlamıştır. Gerçek veri setleriyle yapılan analizlerde, Firth düzeltmeli regresyon her iki veri setinde de en düşük varyans ile daha kararlı sonuçlar sunmuştur. Ridge, Lasso ve Elastic Net regresyonları ise varyansı azaltma konusunda etkili olmuş; ancak HKO değerlerini klasik yöntemlere kıyasla biraz artırmıştır. Her iki veri setinde de kullanılan yöntemlerde hesaplanan yan değerlerinin sıfıra oldukça yakın olması, modellerde sistematik hatanın bulunmadığını ve elde edilen sonuçların güvenilir olduğunu göstermektedir. Bu tez kapsamında yapılan analizler, istatistiksel modellemede kullanılan farklı tahmin yöntemlerinin güçlü ve zayıf yönlerini karşılaştırmalı biçimde ortaya koymuş, farklı örneklem büyüklükleri altında nasıl davrandıklarına ilişkin kapsamlı bulgular sunmuştur. Çalışma, özellikle küçük örneklemli kategorik veri modellerinde yan sorununa yönelik çözüm önerileri sunması bakımından literatüre özgün katkılar sağlamaktadır. Ayrıca, uygulama alanlarındaki araştırmacılara uygun yöntem seçimi ve örneklem planlaması konularında rehber niteliğinde bilgiler sunarak bilimsel karar alma süreçlerine katkı sağlamayı amaçlamaktadır.

Özet (Çeviri)

In statistical methodology, bias is defined as the systematic difference between the estimated value and the true parameter, which can directly affect the validity of the model. Therefore, evaluating methods to reduce estimation bias is of great importance in obtaining reliable results in both academic and applied research. In this thesis, the performances of different methods used for parameter estimation in statistical modeling, particularly in cases with small sample sizes and imbalanced/balanced class structures, have been compared. The traditionally widely used Maximum Likelihood Estimation (MLE) method provides consistent and effective results with large samples, but issues of bias can arise in situations with small sample sizes, highly correlated variables, or class imbalances. In this study, methods aimed at reducing estimation bias, such as Firthcorrected logistic regression, Bayesian logistic regression, and regularization techniques based on Ridge, Lasso, and Elastic Net regressions, have been examined in detail, alongside resampling-based approaches such as Bootstrap and Jackknife. Both simulation data and two different real datasets were used in the analyses. Among the methods providing parameter estimates, Classical, Firth-Corrected, and Bayesian logistic regression were applied to the simulation dataset; for the methods not providing parameter estimates, Ridge, Lasso, Elastic Net regressions based on regularization techniques, and Bootstrap and Jackknife methods based on resampling techniques were implemented. All the aforementioned methods, except for Bootstrap and Jackknife logistic regression, were applied to the real datasets. In this study, the performance of different statistical estimation methods has been compared through both simulation-based and real dataset-based analyses. In the simulation data, with small sample sizes (𝑛=25), the most reliable results were obtained using Firth-corrected logistic regression, while as the sample size increased, the classical logistic regression method produced stronger and more significant results. Although Bayesian logistic regression theoretically offers flexibility, it performed weakly in parameter interpretation due to wider confidence intervals and low significance levels. Among methods not providing parameter estimates, Bootstrap and Jackknife methods outperformed with lower bias and error rates for small sample sizes. In particular, the Bootstrap method consistently provided lower error rates across all sample sizes. In the analyses with real datasets, Firth-corrected regression provided more stable results with the lowest variance in both datasets. Ridge, Lasso, and Elastic Net regressions were effective in reducing variance, but their MSE values were slightly higher compared to classical methods. The bias values calculated for all methods used in both datasets were very close to zero, indicating that there was no systematic error in the models and the results obtained were reliable. The analyses conducted in this thesis have comparatively highlighted the strengths and weaknesses of various estimation methods used in statistical modeling, offering comprehensive findings on how they behave under different sample sizes. This study provides unique contributions to the literature, especially in offering solutions to the bias problem in small sample categorical data models. Furthermore, it aims to provide guidance to researchers in the application field regarding appropriate method selection and sample planning, thereby contributing to scientific decision-making processes.

Benzer Tezler

  1. Arşimedyen kapulaları kullanılarak yeni iki değişkenli bir istatistiksel dağılımın elde edilmesi

    Obtaining a new bivariate statistical distribution using archimedean copulas

    RAHİME NUR ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İstatistikSelçuk Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. BUĞRA SARAÇOĞLU

  2. Dönüştürülmüş dağılımlarda meta-sezgisel yaklaşımlar ile parametre tahmini

    Metaheuristic approaches to parameter estimation in transmuted distributions

    SHUAIB MURSAL İBRAHIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikNecmettin Erbakan Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. AYDIN KARAKOCA

  3. İnşaatta teklif stratejileri ve karar modellerinin incelenmesi

    Examine of bidding strategies and decision theories in construction

    AYSAN URAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    İnşaat Mühendisliğiİstanbul Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. EKREM MANİSALI

  4. Lojistik regresyonda robust tahmin yöntemlerinin kullanılması

    Using robust estimation methods in logistic regression

    TUĞÇE PARLAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikAnkara Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. OLÇAY ARSLAN

  5. Klasik ve Bayesci yapısal eşitlik modellerinde parametre tahminlerinin karşılaştırılması: Sıralı kategorik verilerle bir uygulama

    Comparison of parameter estimation in classic and Bayesian structural equation models: An application with ordered categorical data

    GİZEM ERKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. HASAN HÜSEYİN TATLIDİL