Cezalı regresyon yöntemlerinin model tahmini ve değişken seçimindeki etkisinin karşılaştırılması
Comparison the effect of shrinkage regression methods on modelestimation and variable selection
- Tez No: 705107
- Danışmanlar: DR. ÖĞR. ÜYESİ DİDEM DERİCİ YILDIRIM
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Mersin Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 63
Özet
Regresyon analizinin birincil amacı, bağımlı değişkeni en iyi şekilde açıklayan ve en uygun sayıda bağımsız değişkenle tahmin modelinin elde edilmesidir. Özellikle bağımsız değişen sayısı fazla olan veri setlerinde önemli bir durum olarak karşımıza çıkmaktadır. Bu amaçla kullanılan ve sapmasız yöntem olarak bilinen En Küçük Kareler (EKK) tahmin edicilerinin varyansının fazla olması sebebiyle önerilen yöntemler sapmalı tahmin edici olan Cezalı Regresyon yöntemleri (Shrinkage) olarak adlandırılmaktadır. Çoklu doğrusal regresyon analizinde, çoklu bağlantı sorununun (Multicollinearity) ortaya çıkması durumunda bu sapmalı tahmin edici yöntemlerden En Küçük Açı Regresyonu (LAR), En Küçük Mutlak Shrinkage Seçim Operatörü(LASSO) ve Elastik Ağ Regresyonu (Elastic Net Regression) literatürde en çok kullanılan yöntemlerdir. Bu tez çalışmasında da sapmalı yöntemlerden olan LAR, LASSO ve Elastik Ağ regresyon yöntemlerinin model seçiminde hangi değişkenleri aldığı ve model tahmin başarıları karşılaştırılacaktır. Farklı sayıda bağımsız değişken (p= 16, 18, 20), farklı sayıda örnek genişliği (n=50, 100, 200) ve farklı korelasyon katsayılarından (r=0,10; 0,60; 0,90) oluşacak şekilde yapılan simülasyon sonunda üretilen 27 adet veri setinin ardından elde edilen sonuçlarda, LAR ve LASSO neredeyse tamamında aynı sonuçları vermiştir. Hata Kareler Ortalaması (HKO) ve Belirtme Katsayıları (R2) ele alındığında LAR ve LASSO yönteminin Elastik Net yöntemine göre küçük farklılıklarla daha iyi model tahmini yaptığı gözlenmiştir. Küçük korelasyon katsayılarında bu yöntemler model tahmininde başarısız olurken aralarındaki korelasyon değeri arttıkça model tahmin başarısının arttığı gözlenmektedir. Çoklu bağlantı problemi olduğunda kullanışlı olan bu cezalı regresyon yöntemleri daha az sayıdaki bağımsız değişkenlerle en iyi model tahmin edilmek istendiğinde kullanılabilir.
Özet (Çeviri)
The main purpose of the regression analysis is to obtain prediction model with the most appropriate number of independent variables which are best estimated the dependent variable. It is an important point especially in data sets where the number of independent variables are high. Because of the large variance of the Ordinary Least Squares (OLS) estimators, the proposed bias estimators are called Shrinkage Regression Methods (Penalized). In the multiple linear regression analysis, in case of the multicollinearity problem, the Least Angle Regression (LAR), Least Absolute Shrinkage and Selection Operator (LASSO) and Elastic Net Regression (Elastic Net Regression) are the most commonly used methods in the literature. In this thesis, LAR, LASSO and Elastic Net regression methods will be compared in terms of variable selection and the power of model estimation. Simulation with different number of independent variables (p=16, 18, 20), different number of sample sizes (n=50, 100, 200) and different correlation coefficients (r=0,10; 0,60; 0,90) were obtained after 27 data sets produced, LAR and LASSO gave almost the same result in all. Considering the Mean Square Error (MSE) and the Coefficients of Determination (R2), it was observed that the LAR and LASSO methods had better model estimates, although there was not much difference compared to the Elastic Net method. While these methods made a poor model estimation for small correlation coefficients, it had been observed that the higher the correlation coefficient, the better the model estimation was. These shrinkage methods, which are used when there is a multicollinearity problem, can be used as an alternative method to the Ordinary Least Squares Method (OLS) when the LAR and LASSO methods are desired to estimate the best model with fewer variables.
Benzer Tezler
- Cezalı Regresyon yöntemleri ve uygulaması
Penalized regression methods and its application
RUKEN ERDEM DEMİR
Yüksek Lisans
Türkçe
2017
BiyoistatistikYüzüncü Yıl ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. SIDDIK KESKİN
- New robust penalized estimators for linear and logistic regression
Lineer ve lojistik regresyon için yeni robust cezalı tahmin ediciler
FATMA SEVİNÇ KURNAZ
Doktora
İngilizce
2017
İstatistikYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. ATIF AHMET EVREN
PROF. DR. PETER FILZMOSER
- Lojistik elastik net yönteminin alternatif yöntemlerle karşılaştırılması
Comparison of the logistic elastic net method with alternative methods
SEVİM SİMGE UYSAL
Yüksek Lisans
Türkçe
2020
İstatistikEskişehir Osmangazi Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. ARZU ALTIN YAVUZ
- Prediction of death on international stroke trial dataset with the comparison of different statistical methods
International stroke trial veri setindeki ölüm tahmininin farklı istatistiksel yöntemlerle kıyaslanması
ALPER UMUT TOSUN
Yüksek Lisans
İngilizce
2022
BiyoistatistikYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. FİLİZ KARAMAN
- Yüksek boyutlu sağkalım verilerinin denetimli temel bileşenler, cezalı cox regresyon ve aşırı öğrenme makineleri yöntemleri ile karşılaştırmalı analizi
Comparative analysis of high dimensional survival data with supervised principal components, penalized cox regression and extreme learning machines methods
FULDEN CANTAŞ TÜRKİŞ
Doktora
Türkçe
2022
BiyoistatistikAydın Adnan Menderes ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. İMRAN KURT ÖMÜRLÜ