Geri Dön

Çoklu doğrusal bağlantı durumunda kullanılan yanlı tahmin edicilerin model performanslarının karşılaştırılması

Comparison of the model performances of biased estimators used in the presence of multicollinearity

  1. Tez No: 960021
  2. Yazar: ALİHAN COŞAR
  3. Danışmanlar: PROF. DR. BÜLENT ÇELİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Çoklu doğrusal regresyon analizinde bağımsız değişkenlerin birbirlerinden doğrusal olarak bağımsız olması kritik bir gerekliliktir. Bu koşulun sağlanmaması bağımsız değişkenler arasındaki ilişkiler ile ilişkilidir. Bu durumda çoklu doğrusal bağlantı problemi ortaya çıkar. Çoklu doğrusal bağlantı varlığında klasik En Küçük Kareler (EKK) yöntemi uygulanırsa regresyon katsayılarının kestirimi çok zayıf elde edilmekte; katsayılarının sapmasına, standart hataların büyümesine ve yorumların güvenilirliğinin azalmasına yol açmaktadır. Çoklu doğrusal bağlantı problemine çözüm üretmek için geliştirilen Ridge, LASSO ve Elastik Net yöntemleri bu çalışmada teorik ve uygulamalı olarak incelenmiştir. Bu tahmin ediciler tahminlerin yanlılık özelliğini bir miktar artırırken aynı zamanda varyansı azaltarak daha kararlı ve güvenilir sonuçlar sunar. Uygulamada kullanılan ilk veri seti açıklayıcı değişkenlerin ilişkisiz olduğu, ikinci veri ise bağımsız değişkenler arasında bulunan yüksek ilişkiler nedeniyle çoklu doğrusal bağlantı varlığına sahip olan, veridir. Her bir tahmin edici için çoklu doğrusal bağlantının yokluğunda ve varlığında analizler yapılarak; regresyon katsayıları ve model performansları incelenmiştir. Uygulama sürecinde verilerin %80'i eğitim, %20'si test oranında ayrılmış ve 5 katlı çapraz doğrulama yöntemi kullanılmasıyla en iyi lamda (λ) değeri belirlenerek modellerin genelleme başarıları değerlendirilmiştir. Modellerin performans kriteri olarak regresyon denklemlerinin standart hatası (SH), hata kareler ortalaması (HKO) ve açıklayıcılık katsayısı (R²) olarak esas alınmış, en düşük SH ve HKO değerine, aynı zamanda en yüksek R² değerine sahip yöntem en başarılı modelleme tekniği olarak belirlenmiştir. Çalışma sonucunda, çoklu doğrusal bağlantı içermeyen veri setinde en düşük hata değerlerine sahip yöntem EKK olarak belirlenmiştir. EKK ile LASSO'nun benzer sonuçlar verdiği görülürken, tüm değişkenleri modele dahil ederek varyans açıklayıcılığının korunmasından dolayı en yüksek R² değerine Ridge yöntemi ile ulaşılmıştır. Çoklu doğrusal bağlantı varlığında ise Elastik Net yönteminin, en düşük hata değerlerine ve en yüksek R² değerine sahip olduğu görülmüştür. Bu durum, Elastik Net yönteminin Ridge ve LASSO'nun avantajlarını birlikte içermesi nedeniyle, özellikle çoklu doğrusal bağlantı problemi varlığında model hakkında çıkarım yapma gücünün iyi olduğu belirlenmiştir.

Özet (Çeviri)

In multiple linear regression analysis, it is critical that the independent variables are linearly independent from each other. Violation of this assumption, due to interrelationships among the independent variables, leads to the problem of multicollinearity. When multicollinearity is present and the classical Ordinary Least Squares (OLS) method is applied, the estimation of regression coefficients becomes highly unstable, resulting in biased coefficients, increased standard errors, and reduced reliability of interpretations. To address the issue of multicollinearity, alternative estimation techniques such as Ridge, LASSO, and Elastic Net have been developed. In this study, these estimators are examined both theoretically and empirically. While these methods introduce a certain degree of bias in the estimations, they simultaneously reduce variance, providing more stable and reliable results. The first dataset used in the application phase does not exhibit multicollinearity among explanatory variables, whereas the second dataset contains strong interrelationships among independent variables, indicating the presence of multicollinearity. For each estimator, analyses were conducted under both the absence and presence of multicollinearity, and the regression coefficients as well as model performances were evaluated. During the application process, 80% of the data was allocated for training and 20% for testing. The optimal lambda (λ) values were determined using 5-fold cross-validation to assess the generalization performance of the models. Model performance was evaluated based on the standard error (SE) of regression equations, Mean Squared Error (MSE), and the coefficient of determination (R²). The method yielding the lowest SE and MSE, as well as the highest R² value, was considered the most successful modeling technique. The results indicated that, in the absence of multicollinearity, the OLS method produced the lowest error values. It was observed that OLS and LASSO yielded similar results, while the Ridge method achieved the highest R² value by retaining all variables in the model and preserving variance explanation. In the presence of multicollinearity, the Elastic Net method produced the lowest error values and the highest R² value. This finding highlights that the Elastic Net method, which combines the advantages of both Ridge and LASSO, offers strong inferential power, particularly in the presence of multicollinearity.

Benzer Tezler

  1. Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity

    Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini

    AMMAR HOMAIDA

    Doktora

    İngilizce

    İngilizce

    2025

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MERAL EBEGİL

  2. Ridge regresyonda ridge parametresi için önerilen tarama yöntemine dayalı yeni bir tahmin edici

    A new estimator based on the search method proposed for the ridge parameter in ridge regression

    SELMAN MERMİ

    Doktora

    Türkçe

    Türkçe

    2024

    İstatistikMuğla Sıtkı Koçman Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ÖZGE AKKUŞ

  3. Poisson regresyon modelinde çoklu bağlantının incelenmesi

    Examining of the multicollinearity in poisson regression model

    OUSARA DAVID ATCHAO

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. HATİCE ŞAMKAR

  4. Principal components in the problem of multicollineartity

    Çoklu doğrusal bağlantı sorununda temel bileşenler yaklaşımı

    NESLİHAN ORTABAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SERDAR KURT

  5. Doğrusal regresyonda Ridge,liu ve LASSO tahmin edicileri üzerine bir çalışma

    A study on Ridge, Liu and LASSO estimator in linear regression

    AYŞE KÜÇÜK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MERAL ÇETİN