New robust penalized estimators for linear and logistic regression
Lineer ve lojistik regresyon için yeni robust cezalı tahmin ediciler
- Tez No: 478546
- Danışmanlar: DOÇ. DR. ATIF AHMET EVREN, PROF. DR. PETER FILZMOSER
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 96
Özet
Veri kümesi sapan değerler içerdiğinde ve açıklayıcı değişkenler arasında çoklu iç ilişki bulunduğunda, En Küçük Kareler (EKK) tahmin edicisi çok hassas olabilmektedir. Çözüm olarak, Liu tahmin edicisinin yeni bir robust (dirençli, sağlam) versiyonunu takdim etmekteyiz. Önerilen bu tahmin edici küçük boyutlu veri kümeleri için kullanışlı olmasına rağmen, çok boyutlu veri kümeleri için bazı sınırlamalara, yani bazı hesaplama problemlerine, sahiptir. Bu durumu göz önüne alarak, çok boyutlu veri kümeleri için benzer bir fikirle yeni bir robust Liu-tip tahmin edici önermekteyiz. Gözlemler ağırlıklandırılarak, yalnızca elde edilen bu tahmin edicilerin sapan değerlere dirençli olması sağlanmamış, aynı zamanda yanlılık parametrelerinin tahmin edicileri de robust hale getirilmiştir. Bu tezdeki temel amacımız verilerdeki (özellikle çok boyutlu verilerdeki) sapan değerler ve açıklayıcı değişkenler arasındaki çoklu iç ilişki problemini çözmek için yeni bir tahmin edici ailesini literatüre kazandırmaktır. Çok boyutlu veri kümelerinde modelin tahmin yeteneğini artırmak ve yorumlamayı kolaylaştırmak hususları göz önüne alındığında, değişken seçimi konusu araştırmacıların yoğun ilgisini cezbetmektedir. Modern düzenleme yöntemleri aynı anda hem değişken seçimi hem de parametre tahminine imkan verdiği için tercih edilir hale gelmiştir. Ancak veriler sapan değerlerden zarar gördüğünde, tahmin prosedürü daha zor bir hale gelmektedir. Çözüm olarak, araştırmacılar son zamanlarda bu düzenleme yöntemlerinin robust versiyonlarını geliştirmeye başlamışlardır. Bu amaçla, lineer regresyon için elastik net tahmin edicisinin bütünüyle robust bir versionunu takdim etmekteyiz. Yanıt değişkeninin iki kategorili olduğu durum göz önüne alınarak, önerilen bu yöntem lojistik regresyon için genişletilmiştir. Önerilen yeni tahmin edicileri hesaplamak için verilen algoritmalar, robust olmayan klasik tahmin edicilerin verilerin sadece alt kümelerine tekrar tekrar uygulanması üzerine inşa edilmiştir. Sapan değerlerden ayıklanmış alt kümelerin nasıl belirlenebileceği ve karşılık gelen model için elastik net cezasına ait yanlılık parametrelerinin nasıl uygun bir şekilde seçilebileceği gösterilmiştir. Son olarak, tahmin edicilerin etkinliğini arttırmak için yeniden ağırlıklandırma adımı kullanılmıştır. Simulasyon çalışmaları robust olmayan tahmin edicilerle ve alternatif robust tahmin edicilerle, önerilen tahmin edicilerin karşılaştırılmasını yapmaktadır ve önerilen tahmin edicilerin üstünlüğünü ortaya koymaktadır. Bu durum, önerilen tahmin edicinin makul bir hesaplama süresine sahip olduğu gösterilerek de desteklenmiştir. Ek olarak, bazı gerçek veri kümeleri üzerinde önerilen tahmin edicilerin avantajları gösterilmektedir.
Özet (Çeviri)
The least squares (LS) regression estimator can be very sensitive in the presence of multicollinearity among predictors and outliers in the data. As a solution, we introduce a new robust version of Liu estimator. Although the proposed estimator is useful for low dimensional data, there are some restrictions of it for high-dimensional data, namely some calculation problems. Respecting this situation, a new robust Liu-type estimator with similar idea is introduced for high-dimensional data. By considering weights, also the resulting estimators are highly robust, but also the estimations of the biasing parameters are robustified. The main focus of this thesis is to provide a family to literature which is able to deal with multicollinearity among predictors and outliers in the data, particularly high-dimensional data. Concerning improving interpretibility and increasing the model predictive ability in high-dimensional data, variable selection has attracted much research interest. %Classical stepwise subset selection methods are widely used in practice, but when the number of predictors is large these methods are difficult to implement. Modern regularization methods have become a popular choice because they perform intrinsic variable selection and parameter estimation simultaneously. However, the estimation procedure becomes more difficult and challenging task when the data suffer from outliers. As a solution, recently, researchers started to improve robust versions of those regualarization methods. With this aim, fully robust versions of the elastic net estimator are introduced for linear regression. Conserning the binary response case, the idea is extended for logistic regression. The algorithms to compute the newly proposed estimators are based on the idea of repeatedly applying the non-robust classical estimators to data subsets only. It is shown how outlier-free subsets can be identified efficiently, and how appropriate tuning parameters for the elastic net penalties can be selected for corresponding model. A final reweighting steps are thought to improve the efficiency of the estimators. Simulation studies compare with non-robust and other competing robust estimators and reveal the superiority of the newly proposed methods. This is also supported by a reasonable computation time. Additionaly, some real data examples show the advantages of the proposed estimators.
Benzer Tezler
- New technique for high dimensional data : robust linear regression using L1-penalized mm-estimation
Büyük boyutlu verıler ıçın yenı bır teknık: L1–cezalı doğrusal robust mm-tahnıncısı
KAMAL S.A. DARWISH
Doktora
İngilizce
2015
İstatistikYıldız Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. ALİ HAKAN BÜYÜKLÜ
- A new contribution to nonlinear robust regression and classification with MARS and its applications to data mining for quality control in manufacturing
Doğrusal olmayan sağlam regresyon ve sınıflandırmaya MARS ile yeni bir katkı ve bu katkının endüstride kalite kontrolü amaçlı veri madenciliği uygulamaları
FATMA YERLİKAYA
Yüksek Lisans
İngilizce
2008
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilimsel Hesaplama Ana Bilim Dalı
DOÇ. DR. İNCİ BATMAZ
PROF. DR. GERHARD WİLHELM WEBER
- Robust conic quadratic programming applied to quality improvement - A robustification of CMARS
Kalite geliştirmesine uygulanan sağlam konik kuadratik programlama ? CMARS metodunda bir sağlamlaştırma
AYŞE ÖZMEN
Yüksek Lisans
İngilizce
2010
MatematikOrta Doğu Teknik ÜniversitesiBilimsel Hesaplama Ana Bilim Dalı
DOÇ. DR. İNCİ BATMAZ
PROF. DR. GERHARD WİLHELM WEBER
- Karbon yönetimi ölçütlerinin lojistik performans endeksine entegrasyonu
Integration of carbon management criteria into the logistics performance index
SELİM GÖRKEM YILDIZ
Yüksek Lisans
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞEYDA SERDAR ASAN
- A new blockchain-based PKI and a digital signature format for long-term validation of digital signatures
Elektronik imzaların uzun vadeli doğrulanması için yeni blokzinciri tabanlı PKI ve dijital imza formatı
ERHAN TURAN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEVİL ŞEN AKAGÜNDÜZ
DR. TAMER ERGUN