A hybrid prediction approach using multiple linear regression and decision tree

Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım

PDF İndir

Tez No: 833215
Yazar: MARYAM ARIF AZEEZ AZEEZ
Danışmanlar: DR. ÖĞR. ÜYESİ KAYHAN AYAR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Sakarya Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 73

Özet

Bir kış sabahı uyandığınızda, yağmur yağacak mı yoksa hava güzel mi olacak diye merak edebilirsiniz. Hayatımızda, işe başlamadan önce cevabı tahmin etmeyi ve tahmin etmeyi gerektiren birçok seçeneğe düşeriz. Bu tezde, bir karar ağacı (regresyon ağacı) ile CART mekanizmasına dayalı çoklu doğrusal regresyon arasında hibrit bir yöntem kullanılmıştır. Yaklaşımı test etmek için üç farklı veri seti kullandı. Birincisi, bu reklam yöntemlerinin satışlarla (Y) ilişkisini satış ve satın alma gücü üzerindeki etkisi açısından (TV, radyo ve gazeteler) (X) kullanılarak temsil edilen reklam veri setidir. Bu veri kümesine“Reklam”adı verilir. İkinci veri seti, bağımsız değişkenler (X) olan (Balık türleri, uzunluk, yükseklik, genişlik) ve bunların bağımlı değişkeni temsil eden balığın ağırlığı üzerindeki etkilerini içerir. Bu veri kümesine“Balık”adı verilir. Üçüncü veri seti, arabanın teknik özelliklerinin bağımlı değişken olarak kabul edilen fiyatı üzerindeki etkisidir. Araç özellikleri araba adı, yakıt tipi, çekiş, kapı numarası, araba gövdesi, tahrik tekerleği, motor konumu, dingil mesafesi, araba uzunluğu, araba genişliği, araba yüksekliği, boş ağırlık, motor tipi, silindir numarası, motor boyutu, yakıt sistemi, delik oranı, sıkıştırma oranı, beygir gücü, en yüksek devir sayısı, şehir içi mpg ve otoyol mpg'sidir. Bu veri kümesine“Araba”denir. Veri kümeleri, sırasıyla %80 - %20 tren ve test olarak bölünmüştür. Lineer regresyon ve CART yardımıyla doğru taminler yapılarak araştırma adımları gerçekleştirilmiştir. İlk olarak, CART kullanarak veri kümelerini ayırdık. Her yaprak için farklı alt veri kümeleri filtrelenir ve oluşturulur. Veri setindeki ayrılma noktası düğümler ile bulundu. Hipotezimiz, tahminlerin doğruluğunu artırmak için veri setini CART kullanarak bölmektir. Filtrelenmiş veri kümelerine çoklu doğrusal regresyon uyguladı. Daha sonra, tüm veri ve bölünmüş veri seti kullanılarak çoklu doğrusal regresyon tahminleri karşılaştırılır. Çoklu doğrusal regresyon (MLR) modelleri, katsayıları basit modellere benzer şekilde tahmin eder. Basit doğrusal regresyonda olduğu gibi, çoklu doğrusal regresyondaki en küçük kareler tahmin edicileri tarafsızdır. Ayrıca yansız tahminciler en küçük varyasyona sahiptir ve tutarlıdır. Bu nedenle, regresyon varsayımları doğru kalırsa, kullanıcılar en küçük kareler tahmincilerini kullanarak çoklu doğrusal regresyon katsayılarını güvenle çıkarabilirler. Regresyon çizgisi, değişken yanıt noktalarına yaklaşır. Nokta tahminini çevreleyen değişkenlik, çıkarım varsayımlarını doğrulamada, sorunlu gözlemleri belirlemede ve güven veya tahmin aralıkları yaratmada da yardımcı olur. Çoklu doğrusal regresyon, bağımsız ve bağımlı değişkenler arasındaki doğrusal ilişkiyi modellemek için çalışır. Bu bağımsız değişkenler sürekli veya kesikli olabilir. Çoklu doğrusal regresyon, basit doğrusal regresyonu birden fazla açıklayıcı değişken içerecek şekilde genişletir. Bu, bir bağımlı değişken (Y) ve birden fazla bağımsız değişken (Xi) olduğu anlamına gelir. Yanıt değişkeni, açıklayıcı değişkenlerin doğrusal bir kombinasyonu ile doğrudan ilişkili olduğundan, her iki senaryoda da“doğrusal”terimi kullanılmaktadır. Bölme, ağacı düğümlerinden iki veya daha fazla düğüme ayıran bir prosedürdür. Kök düğüm, tüm örneklemi veya popülasyonu temsil eder ve homojen gruplar olarak iki veya daha fazla gruba bölünür. Alt düğümlerin ayrıldığı düğümlere ebeveyn ve alt düğümler denir. Bölünemeyen ve minimum bölünmeye ulaşmış düğümlere yaprak düğümler denir. Budama, bölmenin tersidir, alt düğümleri kök düğümden çıkarır. Eğitim veri setleri kullanılarak sınıflandırma ve regresyon ağaçları oluşturulmuştur. İnşa edilen ağaçların derinliği üçtü. Daha sonra her bir derinlik seviyesi ve düğüm noktası için farklı MLR denklemleri oluşturulmuştur. Yaklaşımımızı test etmek için maksimum derinlik üç olarak seçildi. Bir sonraki adımda, ağaç oluşturulduktan sonra, her düğüm veri kümesi için bir filtre olarak kullanıldı. Her veri seti için toplam MLR modelleri 15 farklı filtre kullanılarak oluşturulmuştur. Sonraki bölümde, üç veri seti değerlendirildi ve geleneksel CART ve MLR modelleriyle karşılaştırıldı. Bu çalışmada sonuçlar, bağımlı değişkenin (Y) değerini tahmin etmek için regresyon ağacı yöntemi, çoklu doğrusal regresyon ve regresyon ağacını bölme ve ondan çoklu doğrusal regresyon modelleri oluşturma özel araştırma yöntemi kullanılarak karşılaştırıldı. R2, MSE ve MAPE değerlerine dayalı olarak en iyi tahmini veren en iyi yöntem olarak tespit edildi. Karar verme ve olayları tahmin etme hayatımızın ayrılmaz bir parçasıdır. Regresyon ağaçları, kararlarımızı düzenlemenin yaygın yollarından biridir ve makine öğrenimi yöntemlerinden biri olarak kabul edilir. Çoklu doğrusal regresyon modeli algoritması da tahminde önemli bir yöntemdir. Bu araştırmada, regresyon ağacından çoklu doğrusal regresyon modelleri oluşturmak için regresyon ağacı algoritması ile çoklu doğrusal regresyon algoritmasını birleştiren bir süreç önerilmiştir. Üç tür veriye uygulanmıştır. Birinci veri setinde üçüncü seviyeye (L3) bağlı olarak hatayı azaltarak en iyi sonucu verdiği görülmüştür. İkinci veri setinden farklı olarak trende en ufak hatayı üçüncü seviyede (L3) verirken, testte üçüncü seviyede (L3) en iyi sonucu vermeye yetmedi. Bu durumda optimal seviye L1 olarak bulunmuştur. Bu, çalışılan soruna bağlıdır. Ayrıca, en iyi sonucu seçmek için tek bir ölçüme güvenmek imkansızdır. Bununla birlikte, en iyi sonucu, yani en iyi modeli elde etmek için başka hata ölçüleri eklenmelidir. Üçüncü veri setinin birinci seviyede (L1) en iyi sonucu verdiği, ancak üçüncü seviyenin (L3) de en iyi sonucu verdiği için tek olmadığı not edilebilir. Veri setini bölmenin uygun bir yöntem olduğu söylenebilir çünkü en azından üç veri seti olan L1, L2 ve L3'te L0'a veya tam ağaca kıyasla en iyi sonuçları vermiştir. Ancak çoklu doğrusal regresyon modelini tek başına kullanmak en iyi sonucu vermez. Ancak, veri setini bölmek ve hibrit ağaç ve çoklu doğrusal regresyon modelinden en iyi sonucu bulmak için bir sınıflandırma ve regresyon ağacı ekleyebilir. Bu çalışmada, regresyon ağacına dayalı çoklu doğrusal regresyon yöntemi kullanılarak verilerin bölünmesinin, tek başına çoklu doğrusal regresyon yöntemi veya yalnızca regresyon ağacı kullanılmasına göre iyi bir sonuç verdiği görülmüştür. Ayrıca, bir hata ölçüsü kullanımının yeterli olmadığı, optimal bir model elde etmek için birden fazla hata ölçüsünün eklenmesi gerektiği görülmüştür. Ancak, veri setini bölmek ve en iyi sonucu bulmak için bir sınıflandırma ve regresyon ağacı ekleyebilir. hibrit ağaçtan ve çoklu doğrusal regresyon modelinden. Kapsamlı bir gerçek yaşam veri kümesindeki ağacın derinliği, yüksekliğin etkisini görmek için artırılacaktır. Ayrıca, ayrı bir çalışmada doğrusal regresyona alternatif yaklaşımları inceleyeceğiz. Ağaç boyutunu ve güçlü makine öğrenimi tekniklerini artırmada ölçeklenebilir ve etkili olabilir. Doğrusal olmayan verilerin analizi söz konusu olduğunda, karar vericiler genellikle hataları azaltma zorluğuyla karşı karşıya kalır. Neyse ki, regresyon ve CART'ı birleştiren hibrit bir yaklaşımın bunu başarmak için etkili bir yöntem olduğu kanıtlanmıştır. Doğrusal regresyonun ilişkisel tahminini ve CART'ın gruplandırmasını kullanan bu yaklaşım, büyük miktarda veriyi yönetmek ve veriye dayalı kararların doğruluğunu artırmak için güçlü bir araç sunar. Regresyon ağacı, kararı karmaşık ve basit hale getirmek için kullanılan istatistiksel araçlardan biridir. Regresyon ağaçları, ayrık değerler yerine sürekli değerlerle çıktıyı tahmin eder. Tepki değişkenine bağlı olarak, yordayıcıların veya ortak değişkenlerin bir vektörüne bakmak. Regresyon ağacı, basit ve çoklu doğrusal regresyon gibi parametrelere ihtiyaç duymaması bakımından diğer geleneksel regresyon yöntemlerinden farklıdır. Güçlü değişken alt bölümleri üzerinde çalışmasında fark yaratır, aykırı değerlerden etkilenmez ve farklı veri türleri üzerinde uygulanabilir.

Özet (Çeviri)

When you wake up one winter morning, you may wonder whether it will rain or will the weather be fine? In our life we fall into many choices that require prediction and anticipation of the answer before starting work. In this thesis, a hybrid method was used between decision tree (regression tree) and multiple linear regression based on the CART mechanism. It used three different datasets to test the approach. The first is the advertising data set, which was represented by using (TV, radio, and newspapers) (X) to show the relationship between these advertising methods with sales (Y) in terms of their impact on sales and purchasing power. This dataset is called as“Advertising”. The second data set contains (Species of fish, length, height, width), which are the independent variables (X) and their impact on the weight of the fish, which represents the dependent variable. This dataset is called as“Fish”. The third dataset is the effect of the car's specifications on its price, which was considered the dependent variable. The car specification was (car name, fuel type, aspiration, door number, car body, drivewheel, engine location, wheelbase, car length, car width, car height, curb weight, engine type, cylinder number, engine size, fuel system, bore ratio, stroke, compression ratio, horsepower, peak rpm, city mpg, and highway mpg). This dataset is called“Car”. The datasets were divided into train and test 80% - 20%, respectively. Where the research steps that represent the study were implemented, by making accurate predictions with the help of linear regression and CART. First, we split datasets using CART. For each leaf, different sub-datasets are filtered and created. The splitting point in the dataset was found with nodes. Our hypothesis is to divide the dataset using CART to increase the accuracy of the estimates. It applied multiple linear regression to filtered datasets. Then, it is compared multiple linear regression estimations using whole data and splitting dataset. The classification and regression tree (CART) algorithm represents a dataset's connection between the dependent variable and independent factors. It consists of a sequential binary dataset partition based on the variable values. Fitting tree models involves repeatedly splitting the data into homogenous groups. The output is a hierarchical tree of relevant decision rules for classification or prediction. Splitting is a procedure that divides the tree from its nodes into two or more nodes. The root node represents the entire sample or population and is divided into two or more groups as homogeneous groups. The nodes that sub-nodes are separated into are called parent and child nodes. Nodes that cannot be divided and have reached the minimum division are called leaf nodes. Pruning is the opposite of splitting, removing child nodes from the root node. In this study, results were compared to predict the value of the dependent variable (Y) using the regression tree method, multiple linear regression, and the particular research method of splitting the regression tree and constructing multiple linear regression models from it in order to select the best method that gives the best prediction based on the R2, MSE, and MAPE values. It was found in this study that splitting the data using multiple linear regression based on the regression tree gave a good result compared to using the multiple linear regression method alone or using the regression tree only. It was also found that the use of one error measure is not sufficient, but more than one error measure must be added to obtain an optimal model.However, it can add a classification and regression tree to divide the data set and find the best result from the hybrid tree and multiple linear regression model. The depth of the tree in an extensive real-life dataset will be increased to see the effect of height. Furthermore, we will delve into alternative approaches to linear regression in a distinct study. It could be scalable and effective in increasing tree size and powerful machine learning techniques. It was found in this study that splitting the data using multiple linear regression based on the regression tree gave a good result compared to using the multiple linear regression method alone or using the regression tree only. It was also found that the use of one error measure is not sufficient, but more than one error measure must be added to obtain an optimal model.

Benzer Tezler

Tez No
791299
Patlatma kaynaklı yer sarsıntısı tahmininde uyarlamalı bulanık çıkarım sistemi (ANFIS), destek vektör makineleri (SVM) ve gauss süreç regresyonu (GPR) tekniklerinin kullanımı
Application of adaptive-network based fuzzy inference system (ANFIS), support vector machines (SVM) and gaussian process regression (GPR) techniques for prediction of blast-induced ground vibrations
YAŞAR AĞAN
Yüksek Lisans
Türkçe
2023
Maden Mühendisliği ve Madencilik İstanbul Teknik Üniversitesi
Maden Mühendisliği Ana Bilim Dalı
PROF. DR. TÜRKER HÜDAVERDİ
Tez No
521713
Yenilenebilir enerji planlaması için bütünleşik çok amaçlı bir karar modeli önerisi
An integrated multi-objective decision model for renewable energy planning
BEYZANUR ÇAYIR ERVURAL
Doktora
Türkçe
2018
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. RAMAZAN EVREN
Tez No
949440
Test verilerine dayalı, makine öğrenmesi ve derin öğrenme yöntemleri ile batarya sağlık durumu tahmini
Battery state of health estimation based on test data using machine learning and deep learning methods
MEHMET ALİ ARSLANTAŞ
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET ÇALIŞKAN
Tez No
886056
Makine öğrenme yöntemlerini kullanarak çok değişkenli zaman serisi analizi ve tahmin
Multivariate time series analysis and forecasting using machine learning methods
LUBNA ALANIS
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mersin Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAMZA EROL
Tez No
872173
Bulanık küme ve derin sinir ağlarına dayalı zaman serisi öngörüsü: Bulanık uzun-kısa vadeli bellek fonksiyonları
Time series prediction based on fuzzy set and deep neural networks: Fuzzy long-short term memory functions
NUREFŞAN KALENDER
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Üsküdar Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGE CAĞCAĞ YOLCU

Geri Dön