Çoklu bağlantı durumunda makine öğrenimi tabanlı regresyon analizi yöntemleri
Machine learning-basel regression analysis methods in the presence of multicollinearity
- Tez No: 841986
- Danışmanlar: PROF. DR. MELTEM EKİZ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 84
Özet
Bu çalışmanın amacı, çoklu regresyon analizinde değişkenler arasında çoklu bağlantı olması durumunda kullanılan ridge, LASSO ve Elastik Net yöntemlerini karşılaştırmalı olarak incelemektir. Çoklu bağlantı, modelde yer alan bir ya da fazla değişken arasında doğrusal ilişki olması durumudur. Çoklu bağlantı durumunda basit doğrusal regresyon katsayı tahmininde kullanılan EKK güvenilir sonuçlar vermez. Aynı zamanda, modelde yer alan değişken ve gözlem sayısı artıkça model karmaşıklığı artmaktadır. Bu da modelin aşırı öğrenmesi (overfitting) olasılığını artırmakta ve modelin yorumlanmasını zorlaştırmaktadır. Literatürde, çoklu bağlantının varlığından daha az etkilenen ve modelin daha kolay yorumlanmasını sağlayan regresyon analizi yöntemleri önerilmiştir. Bu yöntemler, çok değişkenli bir tahmin probleminin çözülebilmesi amacıyla makine öğrenimi tekniklerini kullanan düzenlileştirilmiş doğrusal modeller olarak da bilinmektedir. Bu çalışma kapsamında, çoklu bağlantı durumunda ridge, LASSO ve Elastik Net tahmin edicilerinin performanslarını kestirim HKO'su ve model parametre tahminlerinin HKO'ları bakımından kıyaslamak amacıyla Monte-Carlo simülasyonu R Program'da yapılmıştır. Simülasyon çalışması ile çoklu bağlantı varlığında, değişken sayısının gözlem sayısından küçük olduğu (pn) durumlar ele alınmıştır. Her senaryo için simülasyon tekrar sayısı 1000 ve 5000 olmak üzere gözlem sayısı ve değişken sayısı arttırılarak sonuçların ne yönde etkilendiği incelenmiştir. Elde edilen sonuçlara göre Elastik Net kestirim HKO bakımından her senaryo için en iyi performansı göstermiştir. Fakat model parametre tahminlerinin HKO'su bakımından her senaryo için Elastik Net dışında en iyi performansı gösteren tahmin edicilerin olduğu görülmüştür. Tekrar sayısı 1000 ile 5000 olduğu durumlarda kestirim HKO ve model parametre tahminlerinin HKO değerlerinin birbirine yakın değerler aldığı gözlenmiştir.
Özet (Çeviri)
The aim of this study is to compare ridge, LASSO, and Elastic Net methods used in the case of multicollinearity among variables in multiple regression analysis. Multicollinearity refers to linear relationship between one or more variables in the model. In the presence of multicollinearity, the Ordinary Least Squares (OLS) method used for coefficient estimation in simple linear regression doesn't provide reliable results. Additionally, as the number of variables and observations in the model increases, the complexity of the model also increases. This increases the probability of overfitting and makes the interpretation of the model difficult. In the literature, regression analysis methods have been proposed that are less affected by the presence of multicollinearity and enable the model to be more easily interpretable. These methods are also known as regularized linear models that use machine learning technics to solve a multivariate estimation problem. In this study, a Monte Carlo simulation in the R Program was performed to compare the performance of ridge, LASSO, and Elastic Net estimators in the presence of multicollinearity in terms of prediction MSE and model parameter MSEs. Cases where the number of variables is less than the number of observations (pn) were examined with the simulation study in the presence of multicollinearity. For each scenario, the simulation was repeated with 1000 and 5000 replications to investigate how the results were affected by increasing the number of observations and variables. The results showed that Elastic Net performed the best in terms of prediction MSE for each scenario. However, in terms of MSE of model parameter estimations, it has been observed that estimators other than Elastic Net have shown the best performance. It has been observed that when the number of replications was 1000 and 5000, the prediction MSE and MSE of model parameter values were close to each other.
Benzer Tezler
- Accelerating molecular docking using machine learning methods
Kenetleme hesaplarının makine öğrenme metotları ile hızlandırılması
ABDULSALAM YAZID BANDE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
Assist. Prof. Dr. SEFER BADAY
- FLAGS framework and decentralized federated learning under device volatility
FLAGS platformu ve cihaz dalgalanması durumunda merkeziyetsiz federe öğrenme
AHNAF HANNAN LODHI
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZNUR ÖZKASAP
YRD. DOÇ. DR. BARIŞ AKGÜN
- Effect of lignin, extractive matter, holocellulose, and alpha cellulose of biomass on calorific value
Biyokütlenin içeriğindeki lignin, ekstraktif madde, holoselüloz ve alfa selülozun kalorifik değer üzerindeki etkisi
ÖZLEM ECEM KAYNAR
Yüksek Lisans
İngilizce
2022
Kimya Mühendisliğiİstanbul Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR YAMAN
- Çoklu bağlantı durumunda sıralı lojistik regresyon modellerinde yöntemlerin karşılaştırılması
Comparison of ordinal logistic regression models in multicollinearity situation
ONUR BAYRAM
Doktora
Türkçe
2022
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. EYLEM DENİZ HOWE
- Cıvatalı flanş bağlantıları olan montajlı rotor modüllerindeçoklu vekil modeller kullanılarak yapısal bütünlüğündoğrulanması
Validation of structural integrity in assembled rotor modules with bolted flange connections using multiple surrogate models
KADİR KAAN AYTUĞ
Yüksek Lisans
Türkçe
2024
Makine MühendisliğiTOBB Ekonomi ve Teknoloji ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. ERDEM ACAR