Penalized estimation in the bell regression

Bell regresyonda cezalı tahmin

PDF İndir

Tez No: 928858
Yazar: COSMAS KAITANI NZIKU
Danışmanlar: PROF. DR. ARZU ALTIN YAVUZ
Tez Türü: Doktora
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Eskişehir Osmangazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: İstatistik Teorisi Bilim Dalı
Sayfa Sayısı: 101

Özet

Sayma verileri, belirli bir zaman dilimi veya gözlem alanı içinde, sayılabilir ve genellikle pozitif tam sayılarla ifade edilen olayların sayısını temsil etmektedir. Bu tür veriler, genellikle olayların meydana gelme sıklığını ölçmek için kullanılmakta ve Poisson dağılımı gibi dağılımlarla modellenmektedir. Bell regresyon modeli, sayma verilerinin modellenmesinde kullanılan özel bir regresyon yöntemidir. Bell regresyonu, geleneksel sayma veri modelleme yaklaşımlarının sınırlamalarını aşmak için tasarlanmıştır ve genellikle Poisson regresyonu veya Negatif Binomial regresyon gibi standart yöntemlere alternatif olarak kullanılır. Çoklu doğrusal bağlantı, bir regresyon modelindeki açıklayıcı değişkenlerin birbirleriyle yüksek derecede doğrusal ilişkiler içinde olması durumudur. Çoklu doğrusal bağlantı olduğunda, regresyon katsayıları tahmin edilemez hale gelebilir, standart hata değerleri artar ve sonuçta modelin parametre tahminleri etkinliğini kaybeder. Bu durum modelin genelleme gücünü zayıflatır. Ayrıca, çoklu doğrusal bağlantı, değişkenlerin hangi faktörlerden etkilendiğini net bir şekilde belirlemeyi zorlaştırır ve anlamlılık testlerinin yanıltıcı sonuçlar vermesine yol açabilir. Sayma verilerinde çoklu doğrusal bağlantı problemi varlığında modelleme yaparken modelin güvenilirliğinde ciddi düşüşler yaşanabilir. Bu durumda, modele katılan değişkenlerin doğru bir şekilde seçilmesi ve modelin aşırı uyum yapmaması için cezalandırma yöntemlerinin (örneğin, Lasso) kullanılması uygun bir çözüm olacaktır. Lasso (Least Absolute Shrinkage and Selection Operator), regresyon analizinde değişken seçimi ve parametre küçültme (shrinkage) amacıyla kullanılan güçlü bir tekniktir. Lasso, özellikle çoklu doğrusal bağlantı gibi problemlerle başa çıkarken ve yüksek boyutlu veri setlerinde önemli değişkenleri belirlerken kullanılır. Lasso, klasik doğrusal regresyon modelinin kayıp fonksiyonuna l_1 ceza terimi ekler. Bu da regresyon katsayılarının mutlak değerlerinin toplamını sınırlayarak modelin daha basit ve genellenebilir olmasını sağlar. Bu cezalandırma, regresyon katsayılarını sıfıra yaklaştırarak, bazı değişkenlerin katsayılarını sıfırlayabilir ve böylece modelde sadece en önemli değişkenlerin kalmasını sağlar. Bu özellik, değişken seçimi yaparak aşırı uyum (overfitting) riskini azaltır ve modelin genel performansını artırır. Lasso, özellikle çok sayıda açıklayıcı değişkenin bulunduğu ve bu değişkenlerin önemli bir kısmının birbirleriyle yüksek korelasyona sahip olduğu durumlarda faydalıdır. Bu çalışma, sayım verileri bağlamında Lasso regresyon yönteminin, regresyon katsayılarını küçültme (shrinkage) ve değişken seçimi amacıyla uygulanmasını kapsamlı bir şekilde ele almaktadır. Araştırmanın temel odağı, açıklayıcı değişkenler arasında yüksek düzeyde korelasyonun (çoklu doğrusal bağlantı, multicollinearity) neden olduğu istatistiksel sorunların üstesinden gelmektir. Çoklu doğrusal bağlantı, parametre tahminlerinin sapmasına ve istatistiksel modellerin güvenilirliğinin azalmasına yol açabilir. Bu durumda Lasso cezalandırma (penalization) yöntemi yoluyla yüksek düzeyde korelasyonlu değişkenlerin belirlenmesi ve buna bağşı olarak değişken seçimi etkili bir yöntem olarak kullanılmaktadır. Çalışmada çoklu doğrusal bağlantı problemi Bell regresyon modeli için ele alınmıştır. Bell regresyon modeli sayma verilerini modellemek için kullanılmaktadır. Alternatif Yönlendirme Çarpanı Metodu (AlternatingDirection Method of Multipliers-ADMM) algoritması ile Bell regresyon modeli için Lasso cezalandırma yaklaşımı uygulanmıştır. ADMM algoritması, karmaşık cezalandırma fonksiyonlarına sahip optimizasyon problemlerini çözmede güçlü bir araç olarak işlev görmektedir. Bell Lasso regresyon modelinin parametre tahmini için ADMM algoritmasının uygulanışı detaylandırılmış, modelin performansı geniş çaplı simülasyonlar ve gerçek dünya uygulamaları ile değerlendirilmiştir. Çalışmada gerçekleştirilen simülasyonlar, değişkenler arası farklı korelasyon seviyeleri ve örneklem büyüklükleri gibi koşullarda Bell Lasso modelinin performansını değerlendirilmiştir. Elde edilen bulgular, modelin ilgisiz ve yüksek düzeyde korelasyonlu değişkenleri dışlamadaki başarısını ve tahmin doğruluğunu artırmadaki üstünlüğünü ortaya koymaktadır

Özet (Çeviri)

This study comprehensively addresses the application of the Lasso regression method in the context of count data for shrinkage of regression coefficients and variable selection. The main focus of the research is to overcome the statistical problems caused by high levels of correlation (multicollinearity) among explanatory variables. Multicollinearity can lead to deviation of parameter estimates and decrease the reliability of statistical models. In this case, determination of highly correlated variables and variable selection as a result of this by Lasso penalty method is used as an effective method. In the study, multicollinearity problem is addressed for Bell regression model. Bell regression model is used to model count data. The Lasso penalty approach is applied for Bell regression model with Alternating Direction Method of Multipliers (ADMM) algorithm. ADMM Algorithms serve as a powerful tool in solving optimization problems with complex penalty functions. The application of ADMM algorithm for parameter estimation of Bell Lasso regression model is detailed, and the performance of the model is evaluated with large-scale simulations and real-world applications. The simulations performed in the study evaluate the performance of Bell Lasso model under conditions such as different correlation levels between variables and sample sizes. The findings reveal the success of the model in excluding irrelevant and highly correlated variables and its superiority in increasing the estimation accuracy.

Benzer Tezler

Tez No
244371
Yarı parametrik regresyonda tahmin metodları
Estimation methods in semiparametric regression
GÜLİN TABAKAN
Doktora
Türkçe
2009
İstatistik Çukurova Üniversitesi
İstatistik Bölümü
PROF. DR. FİKRİ AKDENİZ
Tez No
275854
Parameter estimation in generalized partial linear models with tikhanov regularization
Genelleştirilmiş parçalı doğrusal modellerde tikhanov düzenleme ile parametre tahmini
BELGİN KAYHAN
Yüksek Lisans
İngilizce
2010
Matematik Orta Doğu Teknik Üniversitesi
Bilimsel Hesaplama Ana Bilim Dalı
PROF. DR. BÜLENT KARASÖZEN
PROF. DR. GERHARD WİLHELM WEBER
Tez No
275853
Parameter estimation in generalized partial linear models with conic quadratic programming
Genelleştirilmiş parçalı doğrusal modellerde ikinci dereceden konik karesel programlama yöntemi ile parametre tahmini
GÜL ÇELİK
Yüksek Lisans
İngilizce
2010
Matematik Orta Doğu Teknik Üniversitesi
Bilimsel Hesaplama Ana Bilim Dalı
PROF. DR. BÜLENT KARASÖZEN
PROF. DR. GERHARD WİLHELM WEBER
Tez No
154807
Çok seviyeli genelleştirilmiş doğrusal modellerde parametre tahminlemesinde MQL, PQL ve MCMC yöntemlerinin karşılaştırılması
Comparision of MQL, PQL and MCMC methods for parameter estimation in multilevel generalized linear models
SUNA GÖKDERE AKKOL
Doktora
Türkçe
2004
Zooloji Yüzüncü Yıl Üniversitesi
Zootekni Ana Bilim Dalı
PROF.DR. HAYRETTİN OKUT
Tez No
338494
Gaussian graphical approaches in estimation of biological systems
Gaussian grafiksel modeli ile biyolojik sistemlerin tahmini
EZGİ AYYILDIZ
Yüksek Lisans
İngilizce
2013
İstatistik Orta Doğu Teknik Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. VİLDA PURUTÇUOĞLU GAZİ

Geri Dön