Comparative performance analysis of variable selection methods in linear: A full factorial design simulation study
Doğrusal modellerde değişken seçim yöntemlerinin karşılaştırmalı performans analizi: Tam faktöriyel tasarımlı simülasyon çalışması
- Tez No: 888719
- Danışmanlar: PROF. DR. CEYLAN YOZGATLIGİL
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 95
Özet
Değişken seçimi, model performansını en alakalı değişkenleri belirleyerek iyileştirmeyi amaçlayan istatistiksel modellemede önemli bir ön işleme adımıdır. Değişken seçimi tekniklerinin bolluğuna rağmen, farklı veri kümeleri ve koşullar arasındaki karşılaştırmalı etkinliklerini anlamada bir boşluk vardır. Bu nedenle, bu çalışmada filtre, sarmalayıcı ve gömülü yöntemler dahil olmak üzere tüm yöntem türlerini kapsayan geniş bir değişken seçimi yöntemini sistematik olarak değerlendiriyoruz. Tam faktöriyel bir tasarım (64 senaryo) kullanarak, farklı faktörler ile örnek büyüklüğü, değişken sayısı, değişken korelasyonu, hata ve aykırı değer gibi veri kümesi özellikleri arasındaki etkileşimleri inceliyoruz. Bu sağlam deneysel çerçeve, her yöntemin performansının derinlemesine değerlendirilmesine olanak tanır ve doğruluk, test ve eğitim hatası gibi birden çok değerlendirme metriğini göz önünde bulundurur. Sonuçlar, her değişken seçimi yönteminin güçlü ve zayıf yönlerine ilişkin önemli içgörüler ortaya koyarak, uygulayıcılara belirli uygulamaları için en uygun tekniği seçmelerinde pratik rehberlik sağlar. Ayrıca, bulgular, bağlama bağlı yöntem seçiminin önemini vurgulayarak, hiçbir tek değişken seçimi yönteminin tüm senaryolar boyunca evrensel olarak diğerlerinden üstün olmadığını vurgulamaktadır. Seçilen değişken seçimi yöntemleri arasından, sonuçlar En Az Mutlak Büzülme ve Seçim Operatörü (LASSO), İleri Yönlü Özellik Seçimi ve Özyinelemeli Özelliğin Ortadan Kaldırılması (RFE) nin veri özelliklerine bağlı olarak önerilen adaylar olduğunu ortaya koymuştur. Genel olarak, bu çalışma vaka spesifik bir kılavuzu ve değişken seçimi yöntemlerinin kapsamlı bir istatistiksel değerlendirmesini sunarak, daha verimli ve doğru tahmin modellerinin geliştirilmesine katkıda bulunmaktadır.
Özet (Çeviri)
Variable selection is an important preprocessing step in statistical modeling, aimed at improving model performance by identifying the most relevant variables. Despite the abundance of variable selection techniques, there remains a gap in understanding their comparative effectiveness across diverse datasets and conditions. Therefore, in this study we systematically evaluate a wide range of variable selection methods, covering all types of methods, filter, wrapper, and embedded with widely known methods. By employing a full factorial design (64 scenarios), we examine the interactions between different factors and various dataset characteristics, such as sample size, number of variables, and variable correlation, error and outlier. This robust experimental framework allows for an in-depth assessment of each method performance, considering multiple evaluation metrics including accuracy, test and train error. The results reveal significant insights into the strengths and limitations of each variable selection method, providing practical guidance for practitioners in choosing the most appropriate technique for their specific applications. Furthermore, the findings highlight the importance of context-dependent method selection, emphasizing that no single variable selection method universally outperforms others across all scenarios. Among selected variable selection methods, results revealed Least Absolute Shrinkage and Selection Operator (LASSO), Forward Feature Selection and Recursive Feature Elimination (RFE) are the suggested candidates depending on the data characteristics. Overall, this study contributes to the field of statistics by offering a case-specisific manual and a thorough statistical evaluation of variable selection methods, thereby aiding in the development of more efficient and accurate predictive models.
Benzer Tezler
- Makine öğrenmesinde değişken seçim yöntemlerinin karşılaştırılması: Ev enerjisi tüketim tahmini
Comparison of variable selection in machine learning methods: Household energy consumption estimation
NURİ BERK URAL
Yüksek Lisans
Türkçe
2024
İstatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. MERAL ÇETİN
- Firma performans analizinde makine öğrenmesi: Düzenlileştirici regresyon yöntemleri
Machine learning in firm performance analysis: Regularization methods
ÖNDER DORAK
- Akış hidrografı tahmin modelleri
Estimation of runoff hydrograph
MUSTAFA NURI BALOV
Yüksek Lisans
Türkçe
2014
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDÜSSELAM ALTUNKAYNAK
- GT yöntemlerinin sınıflandırması, performans ölçütleri, üretimle ilgili verileri kullanan yeni yöntemlere örnekler ve genetik algoritmalar
Taxonomy of GT methods, performance measures,some new GT methods that is able to incorporate pertinent manufacturing data and genetic algorithms
HATİCE DERİCİ
Yüksek Lisans
Türkçe
1997
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. M. BÜLENT DURMUŞOĞLU
- Türkiye otomotiv sanayinde endüstriyel tasarım faaliyetlerinin yeni ticari taşıt geliştirme sürecine etkisi
Industrial design activities affecting the new commercial vehicle development process in Turkish automotive industry
FUAT ALİ PAKER
Doktora
Türkçe
2019
Endüstri Ürünleri Tasarımıİstanbul Teknik ÜniversitesiEndüstri Ürünleri Tasarımı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EKREM CEM ALPPAY