Doğrusal regresyonda sağlam regresyon kestiricilerinin karşılaştırılması ve benzetim çalışması
Comparison of robust estimators in linear regression and simulation study
- Tez No: 521918
- Danışmanlar: PROF. DR. MEHMET AYDIN ERAR
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 76
Özet
Parametre kestirimleri için yansız sonuçlar elde etmek amacıyla kullanılan En Küçük Kareler (EKK) yönteminin, aykırı değer varlığında yanlı sonuçlar vermesi ve düşük performans göstermesi sağlam regresyon yöntemlerinin tercih edilmesine neden olmuştur. Bu çalışmada sağlam regresyon yöntemlerinin karşılaştırması amacıyla benzetim çalışması ve bir uygulama yapılmıştır. R programında“rlm”ve“lm”fonksiyonları kullanılarak yapılan çalışmada, sağlam regresyon yöntemlerinden M, MM, LAD ve S yöntemleri EKK ile karşılaştırılmıştır. Ayrıca benzetim çalışmasında, farklı amaç fonksiyonları seçilerek Huber'in M, Hampel'ın M ve Tukey'in iki ağırlıklısı M yöntemleri ile kesirilen modeller EKK ile karşılaştırılmıştır. Benzetim çalışmasında 9 farklı senaryo üretilmiştir. n=10, n=30 ve n=100 için aykırı değerin olmadığı, aykırı değer sayısının 1 ve 2 olduğu, açıklayıcı değişken sayısının 2 ve 4 belirlendiği, varyansın 0,1 , 0 ve 10 olarak seçildiği durumlar için EKK ve sağlam yöntemler birbirleriyle karşılaştırılmıştır. Toplam hata kareler ortalaması (toplam HKO) ve belirtme katsayısı (R2) model performanslarını değerlendirmede kullanılmıştır. Aykırı değer olmadığı durumda benzer sonuçlar elde edilse de aykırı değer varlığında, yüksek bozulma noktasına sahip MM regresyon yönteminin aykırı değer varlığında parametre kestirimlerinde daha başarılı olduğu görülmüştür. MM'nin yüksek bozulma noktasına (%50) sahip olması parametre kestirimlerinde başarılı olduğunu göstermektedir. Amaç fonksiyonlarına göre yapılan karşılaştırmada, n=10 seçildiğinde ve aykırı değer varlığında sağlam yöntemlerden Huber'in M ve Tukey'in 2 ağırlıklı kestiricilerinin parametre kestirimlerinde daha başarılı olduğu görülmüştür. n=30 ve n=100 seçildiğinde ise aykırı değer varlığında Hampel'ın M kestiricinin daha başarılı olduğu görülmüştür. Sağlam yöntemlerin aykırı değerleri saptamadaki başarısını göstermek amacıyla, 18 ile 80 yaş arasında, tip 2 diabetes mellitüs tanısı olan, 98 erkek hasta alınarak D vitamini düzeyini etkileyebileceği düşünülen parametrelerle modelleme yapıldı. EKK yöntemi ile 3 aykırı değer, M yöntemi ile 12 aykırı değer ve MM yöntemi ile 14 aykırı değer belirlendi. MM yönteminin aykırı değerleri saptamada daha başarılı olduğu ve aykırı değerlerden arındırılan verilerle kullanılarak kestirilen EKK modelinin performansının yükseldiği görüldü. Aykırı değerler veriden çıkarıldıktan sonra önemsiz bulunan parametrelerin, önemli bulunduğu görüldü. Yaş, sistolik kan basıncı, iief-5 skoru ve yaş ile sigara etkileşimi D vitaminini en çok etkileyen faktörler olarak bulundu.
Özet (Çeviri)
The Least Squares (OLS) method, which is used to obtain unbiased results for parameter estimates, giving biased results in the presence of outliers and showing poor performance, led to the choice of robust regression methods. In this study, a simulation study and an application were carried out to compare those robust regression methods. M, MM, LAD and S robust regression methods are compared with the OLS method in the study using“rlm”and“lm”functions in R program. In addition, in the simulation study, different objective functions were selected and compared with Huber's M, Hampel's M and Tukey's two weighted M methods with the OLS method. Six different scenarios were produced in the simulation study. For the cases where no outliers, 10% and 20% of the outliers for n=10, n=30 and n=100. 2 and 4 of the explanatory variables were determined, and the variance was chosen as 0.1, 0 and 10. The sum of mean square error (total MSE) and coefficient of determination (R2) was used to evaluate the model performance. Similar results were obtained in the absence of outliers but, in the presence of outliers, the MM regression method, which has a high breakdown point, was found to be more successful in parameter estimates. The high breakdown point of MM (50%) indicates that parameter estimates are successful. In comparison with objective functions, it has been found that when n=10 is selected and in the presence of outliers, Huber's M and Tukey's two weighted estimators are more successful in parameter estimates than OLS method. When n=30 and n=100 is selected, it is seen that Hampel's M estimator is more successful in the presence of outliers. In order to demonstrate the success of robust methods in detecting outliers, 98 male patients with type 2 diabetes mellitus between the ages of 18 and 80 years participated in a study and modeled with parameters that could affect the vitamin D level. The parameters thought to affect the level of vitamin D were modeled. 3 outliers were determined with the OLS method, 12 outliers with the M method and 14 outliers with the MM method. It was observed that the MM method was more successful in detecting outliers, so the performance of the predicted OLS model was improved without outliers. The parameters found to be insignificant after the removal of the outliers were found to be significant. Age, systolic blood pressure, iief-5 score and age-smoking interaction were found to be the most important factors affecting the level of Vitamin D.
Benzer Tezler
- Doğrusal regresyonda sağlam kestirim yöntemleri ve karşılaştırılmaları
Robust estimation techniques in linear regression and their comparisons
LATİF ÖZTÜRK
Doktora
Türkçe
2003
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. GÜLAY BAŞARIR KIROĞLU
- Doğrusal regresyonda sağlam güven aralıkları
Robust confidence intervals in linear regression analysis
NESLİHAN TUBA KAVRUK
- Çoklu doğrusal regresyonda bazı sağlam yöntemlerin incelenmesi
Evaluation of some robust methods in multiple linear regression
REFİYE ŞEN
Yüksek Lisans
Türkçe
2010
İstatistikEskişehir Osmangazi Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. ÖZLEM ALPU
- Sağlam regresyonda değişken seçim ölçütleri
Variable selection criteria in robust regression
MERAL ÇETİN (CANDAN)