Geri Dön

Penalized stable regression

Cezalandırılmış stabil regresyon

  1. Tez No: 884316
  2. Yazar: İREM SARIBAŞ
  3. Danışmanlar: DOÇ. DR. GÜL İNAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Matematik, İstatistik, Mathematics, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 123

Özet

Makine öğrenmesinde veri bölme, hem doğru hem de uyumlu modeller geliştirmek için kritik bir süreçtir. Bu süreç, verileri eğitim, doğrulama ve test olmak üzere ayrı kümeler halinde bölmeyi içerir. Bu bölümlemede eğitim kümesi modellerin eğitilmesini sağlar, doğrulama kümesi en iyi parametrelerin seçilmesine yardımcı olur ve test verisi ise modelin gerçek dünya senaryolarında ne kadar iyi performans gösterdiğini değerlendirmeye olanak tanır. Tek seferlik rastgele bölme veya k-katlı çapraz doğrulama gibi çeşitli veri bölme teknikleri vardır, her biri farklı veri seti özelliklerine ve modelleme amaçlarına özel olarak hizmet eder. Tek seferlik rastgele bölme yönteminde veri seti belirlenen bir oranda rastgele iki kümeye ayrılır. k-katlı çapraz doğrulama yönteminde veri seti rastgele olarak k eşit parçaya ayrılır. Model, k-1 parça ile eğitilir ve kalan parça doğrulama veya test için kullanılır. Bu işlem, her bir parça bir kez eğitim dışında kalacak şekilde tekrarlanır. Aşırı uyum, makine öğreniminde bir modelin eğitim verisi üzerindeki detayları ve gürültüyü modelin daha önceden görmediği veriler üzerindeki performansını olumsuz etkileyecek şekilde öğrenmesi problemidir. Düzenlileştirilmiş regresyon yöntemleri, özellikle eğitim verileri üzerinde mükemmel sonuçlar veren ancak yeni ve daha önce görülmemiş veriler üzerinde başarısız olan modellerin aşırı uyum sorununu çözmede kritik bir rol oynamaktadır. Ridge regresyonu, LASSO (En Az Mutlak Küçültme ve Seçme Operatörü), SCAD (Pürüzsüz Kırpılmış Mutlak Sapma) ve MCP (Minimax Konkav Ceza) gibi düzenlileştirme yöntemleri, model eğitimini geliştirmede önemli bir yere sahiptir. Özelliklerin katsayılarının cezalandırılması yoluyla, bu yöntemler, aşırı uyum sorununu azaltmaya yardımcı olur, daha basit modellerin geliştirilmesini teşvik ederler, çünkü bu tür modellerin yeni veri setlerine daha iyi genelleme yapma olasılığı daha yüksektir. Ridge regresyonunun uyguladığı ceza, katsayıların karelerinin toplamına orantılıdır. Bu, tüm özellikleri modelde tutarken onların etkilerini azaltır, fakat hiçbir özelliği tamamen sıfırlamaz. LASSO, hem regresyon katsayılarını küçültmeyi hem de önemsiz özellikleri modelden çıkarmayı hedefleyen bir yöntemdir. LASSO, katsayıların mutlak değerlerinin toplamını ceza terimi olarak kullanır. Bu yöntem, önemsiz özelliklerin katsayılarını sıfıra eşitleyerek onları modelden çıkarır ve böylece özellik seçimini otomatik olarak gerçekleştirmiş olur. SCAD, küçük katsayılara LASSO'ya benzer bir ceza uygularken, büyük katsayıları cezalandırmaktan kaçınır. Bu yöntem, modelin sıfırdan farklı büyük katsayılara sahip olmasını sağlar. MCP, yüksek boyutlu verilerdeki değişken seçimini ele almak için geliştirilmiş bir yöntemdir. Konveks olmayan bir ceza mekanizması sunar ve benzer şekilde LASSO gibi seyrek çözümleri teşvik ederken, büyük katsayı değerlerini az bir önyargı ile cezalandırır. Bu, özellikle çok değişkenli regresyon modellerinde Ridge'den farklı olarak büyük katsayılara olan etkiyi azaltır. Bu tezde, eğitim ve doğrulama kümelerini etkin bir şekilde seçmek için optimizasyon tabanlı algoritmik bir veri bölme yöntemi önermekteyiz. Önerdiğimiz yöntem, veri noktalarını model performansına katkılarına göre sistematik olarak eğitim veya doğrulama kümelerine atar. Eğer veri noktasının model performansına katkısı yüksekse eğitim kümesinde, düşükse doğrulama kümesinde bulunması mantığı esas alınır. Bu çalışmada, önerilen yaklaşım Ridge, LASSO, SCAD ve MCP regresyon cezalarını kullanarak çeşitli regresyon modelleri üzerinde test edilmiştir. Yaklaşım, çeşitli değerlendirme metrikleri kullanılarak iki farklı veri setinde uygulanan tek seferlik rastgele veri bölme ve k-katlı çapraz doğrulama gibi geleneksel veri bölme teknikleriyle karşılaştırılmıştır. Her bir veri bölme senaryosu, sonuçların tutarlılığını sağlamak ve istatistiksel olarak güvenilir sonuçlar elde etmek için 1000 kez tekrar çalıştırılmıştır. Değerlendirme metrikleri arasında çalışma süresi, düzenlileştirme hiperparametresi lamda'nın ortalama değeri, düzenlileştirme hiperparametresi lamda'nın standart sapması, doğrulama, eğitim ve test kümelerinin tahmin hatası, ortalama katsayılar ve katsayıların ortalama standart sapması yer almaktadır. Tek seferlik rastgele veri bölme senaryosunda veri seti, gözlemlerin %80'i eğitim ve doğrulama kümesinde ve %20'si test kümesinde olacak şekilde rastgele bölünmüştür. Ardından, belirlenen bir orana göre eğitim ve doğrulama kümeleri yine rastgele gözlemler seçilerek ayrılmıştır. Bu kümeler kullanılarak model kurulmuş ve performans ölçülmüştür. k-katlı çapraz doğrulama senaryosunda veri seti, gözlemlerin %80'i eğitim ve doğrulama kümesinde ve %20'si test kümesinde olacak şekilde rastgele bölünmüştür. Eğitim ve doğrulama kümeleri daha sonra k eşit parçaya bölünmüştür. k-1 parça eğitim için kullanılırken kalan 1 parça doğrulama için kullanılmıştır Bu şekilde her parça bir kez doğrulama kümesi olacak şekilde k defa model kurulmuştur ve performans ölçülmüştür. Optimizasyon tabanlı veri bölme yaklaşımının değerlendirildiği senaryoda veri seti, gözlemlerin %80'i eğitim ve doğrulama kümesinde ve %20'si test kümesinde olacak şekilde rastgele bölünmüştür. Ardından, her bir veri noktasının model performansına katkısı göz önüne alınarak eğitim ve doğrulama kümeleri belirlenen bir orana göre ayrılmıştır. Bu kümeler kullanılarak model kurulmuş ve performansı ölçülmüştür. Belirtilen senaryolar üzerinden yapılan testler sonucunda elde edilen bulgular aşağıdaki gibidir: Çalışma süresi bakımından değerlendirildiğinde önerilen yöntem, tek seferlik rastgele bölme yöntemine kıyasla daha fazla zaman gerektirse de, k-katlı çapraz doğrulama ile karşılaştırıldığında benzer veya daha az sürede etkili sonuçlar sunmaktadır. Bu durum, özellikle büyük veri setleri veya karmaşık modellerle çalışıldığında daha belirgin hale gelmektedir. Yöntemimiz, veri bölme süreçlerini optimize ederek, zaman maliyetini dengelerken doğruluk ve model performansını maksimize etme potansiyeline sahiptir. Düzenleme hiperparametresi lamda'nın ortalaması bakımından değerlendirildiğinde; farklı senaryolarda, lamda değerlerinin değişkenlik göstermesi, özellikle Ridge ve SCAD gibi düzenlileştirme yöntemlerinin, modellerin veriye uyumunda önemli bir etkisi olduğunu göstermiştir. LASSO'da ise düşük lamda değerleri, düzenlemesiz regresyon modellerine benzer sonuçlar elde edilmesine neden olmuştur, bu da düzenlemenin etkisinin minimal olduğunu göstermektedir. Düzenleme hiperparametresi lamda'nın standart sapması bakımından değerlendirildiğinde önerilen yöntem, lamda değerlerinin standart sapmalarını azaltarak, modelin verilere daha tutarlı bir şekilde uyum sağlamasını sağlamıştır. Bu azalma, modelin genelleştirme yeteneğinin arttığını ve veriye daha iyi uyduğunu göstermektedir. Tahmin hataları (MSE) bakımından senaryo bazında yapılan analizlerde, önerilen yöntemin doğrulama, eğitim ve test setleri üzerindeki MSE değerlerinde tutarlılık sağladığı görülmüştür. Özellikle, k-katlı çapraz doğrulama ve önerilen optimizasyon yaklaşımıyla yapılan testler, modelin genelleştirme kapasitesini artırarak en düşük MSE değerlerini sunmuştur. Sonuçlar, önerilen optimizasyon tabanlı veri bölme yönteminin, k-katlı çapraz doğrulama ile kurulmuş modellere kıyasla benzer ve bazı durumlarda daha başarılı tahmin hataları ile modeller üretebildiğini göstermektedir. k-katlı çapraz doğrulama yönteminde harcanan süre ile optimizasyon tabanlı veri bölme yöntemi kıyaslandığında hesaplama maliyeti olarak optimizasyon tabanlı veri bölme yöntemi daha avantajlı görülmektedir. Bununla birlikte, modeller tahminlerde, model katsayılarında ve hiperparametrelerde önemli ölçüde daha düşük standart sapmalar sergilemiştir. Bu durum, modelin istikrarında belirgin bir artış olduğunu işaret etmekte ve önerilen yöntemin daha güvenilir ve tutarlı makine öğrenimi modellerinin geliştirilmesine katkı sağlayabileceğini öne sürmektedir. Bu bulgular, yöntemin uygulanabilirliği ve etkinliği açısından umut verici perspektifler sunmaktadır.

Özet (Çeviri)

In machine learning, the process of data splitting is critical for developing both accurate and consistent models. This process involves dividing the data into separate sets for training, validation, and testing. The training set enables the training of models, the validation set assists in selecting the best parameters, and the test data allows for the assessment of performance of the model in real-world scenarios. Various data splitting techniques exist, each serving specific characteristics of the data set and modeling objectives, such as one-time split and k-fold cross-validation. In the method of one-time split, the data set is randomly divided into two subsets at a predetermined ratio. In the method of k-fold cross-validation, the data set is randomly divided into k equal parts. The model is trained on k-1 parts, and the remaining part is used for validation or testing. This process is repeated such that each part is used for training exactly once. Over-fitting is an issue in machine learning where a model learns the details and noise in the training data to an extent that adversely affects its performance on previously unseen data. Regularized regression methods play a crucial role in addressing the problem of over-fitting, especially for models that perform excellently on training data but fail on new and previously unseen data. Techniques such as Ridge regression, the Least Absolute Shrinkage and Selection Operator (LASSO), Smoothly Clipped Absolute Deviation (SCAD), and the Minimax Concave Penalty (MCP) hold significant places in enhancing model training. By penalizing the coefficients of features, these methods help reduce over-fitting, encouraging the development of simpler models because such models are more likely to generalize better to new data sets. The penalty implemented by Ridge regression is proportional to the sum of the squares of the coefficients, which reduces their effect while retaining all features in the model, but does not eliminate any feature completely. LASSO aims both to shrink regression coefficients and to remove insignificant features from the model. It employs the sum of the absolute values of the coefficients as the penalty term. This method zeroes out the coefficients of insignificant features, thereby automatically performing feature selection. SCAD applies a penalty similar to that of LASSO to small coefficients but avoids penalizing large coefficients, allowing the model to retain large coefficients that are significantly different from zero. MCP is a method developed to address variable selection in high-dimensional data, offering a non-convex penalty mechanism and promoting sparse solutions while penalizing large coefficient values with less bias, thus reducing the effect on large coefficients differently than Ridge. In this thesis, we propose an optimization-based algorithmic data splitting method to effectively select training and validation sets. Our proposed method systematically assigns data points to training or validation sets based on their contributions to the performance of the model. If the contribution of a data point to the performance of the model is high, it is placed in the training set; if low, in the validation set. In this study, the proposed approach is tested on various regression models using penalties such as Ridge, LASSO, SCAD, and MCP. The approach is compared with traditional data splitting techniques like one-time split method and k-fold cross-validation, applied to two different data sets using various evaluation metrics. Each data splitting scenario has been repeated one thousand times to ensure the consistency of the results and to obtain statistically reliable outcomes. The evaluation metrics include the runtime, the average value of the regularization parameter lambda, the standard deviation of the regularization parameter lambda, errors in prediction for the validation, training, and test sets, average coefficients, and the standard deviation of the coefficients. In the scenario of one-time split method, the data set is randomly divided such that 80% of the observations are in the training and validation set, and 20% are in the test set. Then, based on a predetermined ratio, the training and validation sets are further randomly split. Models are constructed using these sets, and performance is measured. In the scenario of k-fold cross-validation, the data set is randomly divided so that 80% of the observations are in the training and validation set, and 20% are in the test set. The training and validation set is then is divided into k equal parts. k-1 parts are used for training while the remaining part is used for validation. This process is repeated k times, each time with a different part used as the validation set, and the performance of the models is measured. In the scenario evaluating the optimization-based data splitting approach, the data set is randomly divided so that 80% of the observations are in the training and validation set, and 20% are in the test set. Then, considering the contribution of each data point to the performance of the model, the training and validation sets are split according to a predetermined ratio. Models are built using these sets, and their performance is measured. The findings obtained from the tests conducted over the mentioned scenarios are as follows: When evaluated in terms of the runtime, the proposed method, although requiring more time compared to the method of single random splitting, provides effective results in similar or less time when compared to k-fold cross-validation. This situation becomes more pronounced especially when working with large data sets or complex models. Our method optimizes data splitting processes, balancing the cost of time while maximizing the accuracy and performance of the model. In terms of the average value of the regularization parameter lambda, variability in lambda values across different scenarios indicates that regularization methods such as Ridge and SCAD significantly impact the fit of the models to the data. In the case of LASSO, low lambda values result in outcomes similar to those of unregularized regression models, suggesting a minimal impact of the regularization. When evaluating the standard deviation of the regularization parameter lambda, the proposed method reduces the standard deviations of lambda values, ensuring more consistent data fit by the model. This reduction indicates an enhancement in the generalization ability of the model and a better fit to the data. In terms of prediction errors (MSE) evaluated scenario-wise, the proposed method maintains consistency in MSE values across the validation, training, and test sets. Notably, tests conducted with both k-fold cross-validation and the proposed optimization approach enhance the generalization capacity of the model, offering the lowest MSE values. The results demonstrate that the proposed optimization-based data splitting method can produce models with prediction errors comparable to, and in some cases more successful than, those developed using k-fold cross-validation. When compared in terms of computational cost, the optimization-based data splitting method appears to be more advantageous than the time spent on k-fold cross-validation. Furthermore, the models have exhibited significantly lower standard deviations in predictions, model coefficients, and hyperparameters. This indicates a marked increase in model stability and suggests that the proposed method can contribute to the development of more reliable and consistent machine learning models. These findings offer promising perspectives on the applicability and effectiveness of the method.

Benzer Tezler

  1. Fonksiyonel regresyon modellerinde kısmi en küçük kareler yöntemi üzerine yeni yaklaşımlar

    Nex approaches to the partial least square method in functional regression models

    SEMANUR SARIÇAM

    Doktora

    Türkçe

    Türkçe

    2022

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. BARIŞ AŞIKGİL

    DOÇ. DR. UFUK BEYAZTAŞ

  2. Tercih veri modellerinde çok boyutlu ölçekleme

    Multidimensional scaling in preference data models

    HANDE KANDUR

    Doktora

    Türkçe

    Türkçe

    2018

    İstatistikMarmara Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. DİLEK ALTAŞ

  3. Kontrol organının ayarı

    Başlık çevirisi yok

    H.TALAT DOĞUSAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. A. TALHA DİNİBÜTÜN

  4. PI ve PID tipi kontrol organlarının ayarlanmasında deneysel ve simülasyon metodlarının karşılaştırılması

    Başlık çevirisi yok

    GÖKHAN DENİZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. A. TALHA DİNİBÜTÜN

  5. Burdur Yüreğil Köyü kültür varlıkları ve koruma sorunlarının irdelenmesi

    Cultural heritage and conservation problems of Burdur Yüreğil village

    SELİN AKMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. DENİZ MAZLUM