Geri Dön

New robust penalized estimators for linear and logistic regression

Lineer ve lojistik regresyon için yeni robust cezalı tahmin ediciler

  1. Tez No: 478546
  2. Yazar: FATMA SEVİNÇ KURNAZ
  3. Danışmanlar: DOÇ. DR. ATIF AHMET EVREN, PROF. DR. PETER FILZMOSER
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 96

Özet

Veri kümesi sapan değerler içerdiğinde ve açıklayıcı değişkenler arasında çoklu iç ilişki bulunduğunda, En Küçük Kareler (EKK) tahmin edicisi çok hassas olabilmektedir. Çözüm olarak, Liu tahmin edicisinin yeni bir robust (dirençli, sağlam) versiyonunu takdim etmekteyiz. Önerilen bu tahmin edici küçük boyutlu veri kümeleri için kullanışlı olmasına rağmen, çok boyutlu veri kümeleri için bazı sınırlamalara, yani bazı hesaplama problemlerine, sahiptir. Bu durumu göz önüne alarak, çok boyutlu veri kümeleri için benzer bir fikirle yeni bir robust Liu-tip tahmin edici önermekteyiz. Gözlemler ağırlıklandırılarak, yalnızca elde edilen bu tahmin edicilerin sapan değerlere dirençli olması sağlanmamış, aynı zamanda yanlılık parametrelerinin tahmin edicileri de robust hale getirilmiştir. Bu tezdeki temel amacımız verilerdeki (özellikle çok boyutlu verilerdeki) sapan değerler ve açıklayıcı değişkenler arasındaki çoklu iç ilişki problemini çözmek için yeni bir tahmin edici ailesini literatüre kazandırmaktır. Çok boyutlu veri kümelerinde modelin tahmin yeteneğini artırmak ve yorumlamayı kolaylaştırmak hususları göz önüne alındığında, değişken seçimi konusu araştırmacıların yoğun ilgisini cezbetmektedir. Modern düzenleme yöntemleri aynı anda hem değişken seçimi hem de parametre tahminine imkan verdiği için tercih edilir hale gelmiştir. Ancak veriler sapan değerlerden zarar gördüğünde, tahmin prosedürü daha zor bir hale gelmektedir. Çözüm olarak, araştırmacılar son zamanlarda bu düzenleme yöntemlerinin robust versiyonlarını geliştirmeye başlamışlardır. Bu amaçla, lineer regresyon için elastik net tahmin edicisinin bütünüyle robust bir versionunu takdim etmekteyiz. Yanıt değişkeninin iki kategorili olduğu durum göz önüne alınarak, önerilen bu yöntem lojistik regresyon için genişletilmiştir. Önerilen yeni tahmin edicileri hesaplamak için verilen algoritmalar, robust olmayan klasik tahmin edicilerin verilerin sadece alt kümelerine tekrar tekrar uygulanması üzerine inşa edilmiştir. Sapan değerlerden ayıklanmış alt kümelerin nasıl belirlenebileceği ve karşılık gelen model için elastik net cezasına ait yanlılık parametrelerinin nasıl uygun bir şekilde seçilebileceği gösterilmiştir. Son olarak, tahmin edicilerin etkinliğini arttırmak için yeniden ağırlıklandırma adımı kullanılmıştır. Simulasyon çalışmaları robust olmayan tahmin edicilerle ve alternatif robust tahmin edicilerle, önerilen tahmin edicilerin karşılaştırılmasını yapmaktadır ve önerilen tahmin edicilerin üstünlüğünü ortaya koymaktadır. Bu durum, önerilen tahmin edicinin makul bir hesaplama süresine sahip olduğu gösterilerek de desteklenmiştir. Ek olarak, bazı gerçek veri kümeleri üzerinde önerilen tahmin edicilerin avantajları gösterilmektedir.

Özet (Çeviri)

The least squares (LS) regression estimator can be very sensitive in the presence of multicollinearity among predictors and outliers in the data. As a solution, we introduce a new robust version of Liu estimator. Although the proposed estimator is useful for low dimensional data, there are some restrictions of it for high-dimensional data, namely some calculation problems. Respecting this situation, a new robust Liu-type estimator with similar idea is introduced for high-dimensional data. By considering weights, also the resulting estimators are highly robust, but also the estimations of the biasing parameters are robustified. The main focus of this thesis is to provide a family to literature which is able to deal with multicollinearity among predictors and outliers in the data, particularly high-dimensional data. Concerning improving interpretibility and increasing the model predictive ability in high-dimensional data, variable selection has attracted much research interest. %Classical stepwise subset selection methods are widely used in practice, but when the number of predictors is large these methods are difficult to implement. Modern regularization methods have become a popular choice because they perform intrinsic variable selection and parameter estimation simultaneously. However, the estimation procedure becomes more difficult and challenging task when the data suffer from outliers. As a solution, recently, researchers started to improve robust versions of those regualarization methods. With this aim, fully robust versions of the elastic net estimator are introduced for linear regression. Conserning the binary response case, the idea is extended for logistic regression. The algorithms to compute the newly proposed estimators are based on the idea of repeatedly applying the non-robust classical estimators to data subsets only. It is shown how outlier-free subsets can be identified efficiently, and how appropriate tuning parameters for the elastic net penalties can be selected for corresponding model. A final reweighting steps are thought to improve the efficiency of the estimators. Simulation studies compare with non-robust and other competing robust estimators and reveal the superiority of the newly proposed methods. This is also supported by a reasonable computation time. Additionaly, some real data examples show the advantages of the proposed estimators.

Benzer Tezler

  1. New technique for high dimensional data : robust linear regression using L1-penalized mm-estimation

    Büyük boyutlu verıler ıçın yenı bır teknık: L1–cezalı doğrusal robust mm-tahnıncısı

    KAMAL S.A. DARWISH

    Doktora

    İngilizce

    İngilizce

    2015

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ALİ HAKAN BÜYÜKLÜ

  2. A new contribution to nonlinear robust regression and classification with MARS and its applications to data mining for quality control in manufacturing

    Doğrusal olmayan sağlam regresyon ve sınıflandırmaya MARS ile yeni bir katkı ve bu katkının endüstride kalite kontrolü amaçlı veri madenciliği uygulamaları

    FATMA YERLİKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    DOÇ. DR. İNCİ BATMAZ

    PROF. DR. GERHARD WİLHELM WEBER

  3. Robust conic quadratic programming applied to quality improvement - A robustification of CMARS

    Kalite geliştirmesine uygulanan sağlam konik kuadratik programlama ? CMARS metodunda bir sağlamlaştırma

    AYŞE ÖZMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    MatematikOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    DOÇ. DR. İNCİ BATMAZ

    PROF. DR. GERHARD WİLHELM WEBER

  4. Karbon yönetimi ölçütlerinin lojistik performans endeksine entegrasyonu

    Integration of carbon management criteria into the logistics performance index

    SELİM GÖRKEM YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞEYDA SERDAR ASAN

  5. A new blockchain-based PKI and a digital signature format for long-term validation of digital signatures

    Elektronik imzaların uzun vadeli doğrulanması için yeni blokzinciri tabanlı PKI ve dijital imza formatı

    ERHAN TURAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SEVİL ŞEN AKAGÜNDÜZ

    DR. TAMER ERGUN