Geri Dön

Doğrusal regresyonda ridge, lasso ve elastik net yöntemlerinin sağlık alanında uygulanması

Application of ridge, lasso and elastic net methods in linear regression in the field of health

  1. Tez No: 783031
  2. Yazar: MERVE VERGİLİ
  3. Danışmanlar: PROF. DR. HİKMET ORHAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Bu tez çalışmasının amacı çoklu bağlantı sorunu ile karşılaşılan regresyon analizinde Ridge, LASSO ve Elastik Net yanlı kestirim yöntemlerini teori ve uygulamalarını birlikte göstermektir. Sağlık alanında hastalıkların teşhisi amacıyla regresyon yöntemleri sıklıkla tercih edilmektedir. Fakat veri setindeki değişkenler arasında yüksek korelasyon sonucunda ortaya çıkan çoklu bağlantı sorunu varlığında klasik doğrusal regresyon yöntemleri sağlıklı sonuçlar vermemektedir. Bu sebeple doğrusal regresyonda karşılaşılan çoklu bağlantı sorununa çözüm olarak yanlı kestirim yöntemleri önerilmiştir. Çoklu bağlantı sorununa sıklıkla rastlanılan sağlık veri setlerinde yanlı kestirim yöntemlerinin kullanımını göstermek amacıyla Kaggle platformundan alınan Vücut Yağ Yüzdesi veri seti Ridge, LASSO ve Elastik Net regresyonları kullanılarak analiz edilmiştir. Ayrıca aralarında yüksek korelasyon bulunan genlerden oluşan büyük boyutlu genomik veri setlerinin LASSO ve Elastik Net regresyon gibi değişken seçim yöntemleri ile daha küçük boyutlara indirgenerek analizlerinin gerçekleştirilebileceği, hastalık durumunun daha kolay tahmin edilebileceği NCBI veri tabanından alınan KOAH veri seti kullanılarak gösterilmiştir. Veri setleri R ve Python programlarında analiz edilmiş ve sonuçlar model başarı kriterleri ile karşılaştırılmıştır. Vücut Yağ Yüzdesi veri seti ile yapılan çalışma sonucunda 5-katlı çapraz doğrulamaya ek olarak uygulanan hiperparametre optimizasyonu ile Elastik Net regresyonun R2 değeri 0,80 olarak bulunmuştur. Elde edilen sonuçlara göre Elastik Net regresyonun Ridge ve LASSO regresyona göre nispeten daha iyi sonuç verdiği görülmüştür. KOAH veri seti ile yapılan çalışma sonucunda 10-katlı çapraz doğrulama ile LASSO regresyonun R2 değeri 0,85, Elastik Net regresyonun R2 değeri 0,92 olarak bulunmuştur. Bu sonuçlara göre LASSO ve Elastik Net regresyonun genomik veri setlerinde kullanılabilir olduğu fakat Elastik Net regresyonun hem katsayılara daraltma uygulayıp hem de ilişkili değişken gruplarını seçebilmesi sayesinde daha iyi bir performans gösterdiği anlaşılmıştır.

Özet (Çeviri)

The aim of this thesis study is to show the theory and applications of Ridge, LASSO and Elastic Net-biased estimation methods in regression analysis encountered with multicollinearity problem. Regression methods are often preferred in order to diagnose diseases in the field of health. However, in the presence of multicollinearity problem that arises as a result of high correlation between the variables in the data set, classical linear regression methods do not give healthy results. For this reason, biased estimation methods have been proposed as a solution to the multicollinearity problem encountered in linear regression. In order to show the use of biased estimation methods in health data sets where multicollinearity problems are frequently encountered, the Body Fat Percentage data set taken from the Kaggle platform was analyzed using Ridge, LASSO and Elastic Net regressions. In addition, it has been shown by using the COPD dataset from the NCBI database that large-scale genomic datasets consisting of genes with high correlation between them can be reduced to smaller sizes with variable selection methods such as LASSO and Elastic Net regression, and the disease status can be predicted more easily. The data sets were analyzed in R and Python programs and the results were compared with the model success criteria. As a result of the study conducted with the Body Fat Percentage data set, the R2 value of the Elastic Net regression was found to be 0.80 with the hyperparameter optimization applied in addition to the 5-folds cross validation. According to the results obtained, it was seen that the Elastic Net regression gave relatively better results than the Ridge and LASSO regressions. As a result of the study with the COPD data set, the R2 value of the LASSO regression was found to be 0.85, and the R2 value of the Elastic Net regression was 0.92, with 10-folds cross validation. According to the results, it is understood that LASSO and Elastic Net regression can be used in genomic datasets, but Elastic Net regression performs better thanks to it can both apply narrowing to the coefficients and select related variable groups.

Benzer Tezler

  1. Çoklu bağlantı durumunda sıralı lojistik regresyon modellerinde yöntemlerin karşılaştırılması

    Comparison of ordinal logistic regression models in multicollinearity situation

    ONUR BAYRAM

    Doktora

    Türkçe

    Türkçe

    2022

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. EYLEM DENİZ HOWE

  2. Lineer regresyonda küçültme yöntemlerinin karşılaştırılması

    A comparison of shrinkage methods in linear regression

    ERDEM KALKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    MatematikDicle Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. PAKİZE TAYLAN

  3. Comparison and assessment of shrinkage methods in case of multicollinearity problem

    Çoklu bağlantı sorunu durumunda küçültme yöntemlerinin karşılaştırılması ve değerlendirilmesi

    ŞEVVAL KILIÇOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiAtılım Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATMA YERLİKAYA ÖZKURT

  4. Cezalandırılmış lojistik regresyon yöntemlerinin karşılaştırılması

    Comparison of penalized logistic regression methods

    PINAR KILINÇ ÖZARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. HÜLYA OLMUŞ

  5. Lojistik elastik net yönteminin alternatif yöntemlerle karşılaştırılması

    Comparison of the logistic elastic net method with alternative methods

    SEVİM SİMGE UYSAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ARZU ALTIN YAVUZ