Doğrusal regresyonda ridge, lasso ve elastik net yöntemlerinin sağlık alanında uygulanması
Application of ridge, lasso and elastic net methods in linear regression in the field of health
- Tez No: 783031
- Danışmanlar: PROF. DR. HİKMET ORHAN
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 102
Özet
Bu tez çalışmasının amacı çoklu bağlantı sorunu ile karşılaşılan regresyon analizinde Ridge, LASSO ve Elastik Net yanlı kestirim yöntemlerini teori ve uygulamalarını birlikte göstermektir. Sağlık alanında hastalıkların teşhisi amacıyla regresyon yöntemleri sıklıkla tercih edilmektedir. Fakat veri setindeki değişkenler arasında yüksek korelasyon sonucunda ortaya çıkan çoklu bağlantı sorunu varlığında klasik doğrusal regresyon yöntemleri sağlıklı sonuçlar vermemektedir. Bu sebeple doğrusal regresyonda karşılaşılan çoklu bağlantı sorununa çözüm olarak yanlı kestirim yöntemleri önerilmiştir. Çoklu bağlantı sorununa sıklıkla rastlanılan sağlık veri setlerinde yanlı kestirim yöntemlerinin kullanımını göstermek amacıyla Kaggle platformundan alınan Vücut Yağ Yüzdesi veri seti Ridge, LASSO ve Elastik Net regresyonları kullanılarak analiz edilmiştir. Ayrıca aralarında yüksek korelasyon bulunan genlerden oluşan büyük boyutlu genomik veri setlerinin LASSO ve Elastik Net regresyon gibi değişken seçim yöntemleri ile daha küçük boyutlara indirgenerek analizlerinin gerçekleştirilebileceği, hastalık durumunun daha kolay tahmin edilebileceği NCBI veri tabanından alınan KOAH veri seti kullanılarak gösterilmiştir. Veri setleri R ve Python programlarında analiz edilmiş ve sonuçlar model başarı kriterleri ile karşılaştırılmıştır. Vücut Yağ Yüzdesi veri seti ile yapılan çalışma sonucunda 5-katlı çapraz doğrulamaya ek olarak uygulanan hiperparametre optimizasyonu ile Elastik Net regresyonun R2 değeri 0,80 olarak bulunmuştur. Elde edilen sonuçlara göre Elastik Net regresyonun Ridge ve LASSO regresyona göre nispeten daha iyi sonuç verdiği görülmüştür. KOAH veri seti ile yapılan çalışma sonucunda 10-katlı çapraz doğrulama ile LASSO regresyonun R2 değeri 0,85, Elastik Net regresyonun R2 değeri 0,92 olarak bulunmuştur. Bu sonuçlara göre LASSO ve Elastik Net regresyonun genomik veri setlerinde kullanılabilir olduğu fakat Elastik Net regresyonun hem katsayılara daraltma uygulayıp hem de ilişkili değişken gruplarını seçebilmesi sayesinde daha iyi bir performans gösterdiği anlaşılmıştır.
Özet (Çeviri)
The aim of this thesis study is to show the theory and applications of Ridge, LASSO and Elastic Net-biased estimation methods in regression analysis encountered with multicollinearity problem. Regression methods are often preferred in order to diagnose diseases in the field of health. However, in the presence of multicollinearity problem that arises as a result of high correlation between the variables in the data set, classical linear regression methods do not give healthy results. For this reason, biased estimation methods have been proposed as a solution to the multicollinearity problem encountered in linear regression. In order to show the use of biased estimation methods in health data sets where multicollinearity problems are frequently encountered, the Body Fat Percentage data set taken from the Kaggle platform was analyzed using Ridge, LASSO and Elastic Net regressions. In addition, it has been shown by using the COPD dataset from the NCBI database that large-scale genomic datasets consisting of genes with high correlation between them can be reduced to smaller sizes with variable selection methods such as LASSO and Elastic Net regression, and the disease status can be predicted more easily. The data sets were analyzed in R and Python programs and the results were compared with the model success criteria. As a result of the study conducted with the Body Fat Percentage data set, the R2 value of the Elastic Net regression was found to be 0.80 with the hyperparameter optimization applied in addition to the 5-folds cross validation. According to the results obtained, it was seen that the Elastic Net regression gave relatively better results than the Ridge and LASSO regressions. As a result of the study with the COPD data set, the R2 value of the LASSO regression was found to be 0.85, and the R2 value of the Elastic Net regression was 0.92, with 10-folds cross validation. According to the results, it is understood that LASSO and Elastic Net regression can be used in genomic datasets, but Elastic Net regression performs better thanks to it can both apply narrowing to the coefficients and select related variable groups.
Benzer Tezler
- Çoklu bağlantı durumunda sıralı lojistik regresyon modellerinde yöntemlerin karşılaştırılması
Comparison of ordinal logistic regression models in multicollinearity situation
ONUR BAYRAM
Doktora
Türkçe
2022
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Lineer regresyonda küçültme yöntemlerinin karşılaştırılması
A comparison of shrinkage methods in linear regression
ERDEM KALKAN
- Comparison and assessment of shrinkage methods in case of multicollinearity problem
Çoklu bağlantı sorunu durumunda küçültme yöntemlerinin karşılaştırılması ve değerlendirilmesi
ŞEVVAL KILIÇOĞLU
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiAtılım ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA YERLİKAYA ÖZKURT
- Cezalandırılmış lojistik regresyon yöntemlerinin karşılaştırılması
Comparison of penalized logistic regression methods
PINAR KILINÇ ÖZARSLAN
- Lojistik elastik net yönteminin alternatif yöntemlerle karşılaştırılması
Comparison of the logistic elastic net method with alternative methods
SEVİM SİMGE UYSAL
Yüksek Lisans
Türkçe
2020
İstatistikEskişehir Osmangazi Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. ARZU ALTIN YAVUZ