A computationally efficient heuristic algorithm for piecewise linear regression
Parçalı doğrusal regresyon için hesapsal verimliliği yüksek bir sezgisel algoritma
- Tez No: 798768
- Danışmanlar: DOÇ. DR. BURKAY GENÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 80
Özet
Regresyon analizi verideki bağımlı değişkenler ile bağımsız değişken arasındaki ilişkiyi modellemek ve gelecek veride bağımsız değişkenlerden bağımlı değişkeni tahminlemek için kullanılan bir yöntemdir. Parçalı doğrusal regresyon (PDR) ise regresyon analizinde kullanılan güçlü bir yaklaşımdır. PDR veriyi birden fazla doğrusal regresyon fonksiyonu ile modeller. Böylece, doğrusal regresyonun yorumlanabilirlik özelliğini barındırmakla birlikte doğrusal olmayan verileri de modelleyebilir. Yorumlanabilirlik özelliği son zamanlarda makine öğrenmesi için revaçta olan bir konu haline gelmiştir. Finans ve sağlık gibi uygulama alanlarında bir modelin sadece iyi bir tahminde bulunması değil, aynı zamanda yorumlanabilir ve/veya konu uzmanları tarafından doğrulanabilir olması önem taşımaktadır. Bu açıdan PDR'nin umut verici bir yaklaşım olduğunu düşünüyoruz. Bu çalışmada, PDR'yi, verinin önceden belirlenmiş bir boyutta aralıklara bölündüğü ve her aralığın benzersiz bir çok değişkenli doğrusal regresyon ile ifade edildiği bir problem olarak tanımlıyoruz. Büyük veri setlerinde dahi pratik olarak kabul edilebilir seviyede hesapsal verimliliğe sahip bir çözüm hedefleyerek sezgisel bir yaklaşım kullanan bir çözüm yöntemi sunuyoruz. Önerilen yöntem Decision Tree, Random Forest, XGBoost, Random Forest öğrenicileri kullanan XGBoost, Support Vector Machines, K-Nearest Neighbors, Artifical Neural Network ve Multivariate Adaptive Regression Splines algoritmalarıyla karşılaştırılmıştır. Deneylerde orta ve büyük ölçekte gözleme sahip birçok sentetik ve gerçek veri seti kullanılmıştır. Sentetik veriler, yapısal kaymaları içerecek şekilde üretildikleri için önerilen yaklaşım tarafından özellikle hedeflenmektedir. Sonuçlar yöntemimizin iyi bilinen makine öğrenmesi algoritmalarıyla rekabetçi kaldığını ve özellikle de sentetik verilerde daha iyi performans gösterdiğini ortaya koymaktadır. Yöntemimiz ayrıca matematiksel programlama tabanlı sezgisel bir yöntem ile de karşılaştırılmış ve daha iyi sonuç gösterdiği gözlemlenmiştir. Önerilen yöntemin hesapsal verimlilik sonuçlarına baktığımızda ise en büyük (100000 gözlem içeren) veri setlerinde dahi milisaniyelerle ifade edilen hesaplama sürelerine sahip olduğunu görüyoruz. Genel olarak sonuçlar özellikle yorumlanabilirlik özelliği dikkate alındığında PDR'nin etkili bir yöntem olabileceğini göstermektedir.
Özet (Çeviri)
Regression analysis is a method used to model the relationship between the dependent variables and the independent variable in the data, and to predict the dependent variable from the independent variables in the future data. Piecewise linear regression (PLR) is a powerful approach used in regression analysis. PLR models the data with multiple linear regression functions. Thus, it can model non-linear data as well as retain the interpretability of linear regression. Interpretability has recently become a hot topic for machine learning. In application areas such as finance and health, it is important for a model not only provide a good prediction, but also be interpretable and/or verifiable by domain experts. In this respect, we think PLR is a promising approach. In this study, we define PLR problem as in which data is partitioned into intervals on a predetermined dimension and each interval is represented by a unique multivariate linear regression. We offer a method by adopting heuristic approaches and aim for a solution with practically acceptable computational efficiency even in large data sets. The proposed method is compared with Decision Tree, Random Forest, XGBoost, XGBoost with Random Forest learners, Support Vector Machines, K-Nearest Neighbors, Artifical Neural Network and Multivariate Adaptive Regression Splines algorithms. Several synthetic and real-world datasets containing moderate and large number of observations are used in the experiments. Synthetic data are particularly targeted by the proposed approach because they are generated in a way to include structural shifts. The results reveal that our method remains competitive with the well-known machine learning algorithms and outperforms especially in the synthetic dataset instances. Our method is also compared with a mathematical programming-based heuristic method and it is clearly observed that the proposed method provides better scores. When we examine at the computational efficiency results of the proposed method, we observe that even the largest datasets (containing 100000 observations) have computation times expressed in milliseconds. Overall, the results show that PLR can be an effective method, especially when considered the interpretability property it holds.
Benzer Tezler
- Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi
Developing a new approach to feature selection with metaheuristic methods for large scale data
ESİN AYŞE ZAİMOĞLU
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Stokastik talep ve geri dönüşlü ekonomik parti büyüklüğü problemi üzerine bir çalışma
A study on the economic lot sizing problem with stochastic demands and returns
CEREN DİRİK
Yüksek Lisans
Türkçe
2017
İşletmeHacettepe Üniversitesiİşletme Ana Bilim Dalı
YRD. DOÇ. DR. KAZIM BARIŞ ATICI
- Üç boyutlu seramik tabanlı mikrodalga devrelerin tasarımı
Design of three-dimensional ceramic based microwave circuits
TARLAN MAHOUTI
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
PROF. DR. NİLGÜN KUŞKONMAZ
PROF. DR. TÜLAY YILDIRIM
- Implicit monolithic parallel solution algorithm for seismic analysis of dam-reservoir systems
Baraj-rezervuar sistemlerinin deprem etkisi altında örtük yekpare ve paralel olarak çözümlenmesi
SEMİH ÖZMEN
Doktora
İngilizce
2016
İnşaat MühendisliğiOrta Doğu Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZGÜR KURÇ
- Bulanık çok modlu kaynak kısıtlı proje çizelgeleme problemlerinin çözümü için matematiksel bir model
A mathematical model for the solution of the fuzzy multi mode resource-constrained project scheduling problems
ÖMER ATLI
Doktora
Türkçe
2012
Endüstri ve Endüstri MühendisliğiHava Harp Okulu KomutanlığıEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. CENGİZ KAHRAMAN