Fonksiyonel veri analizinin karar ağaçlarında kullanımı
Utilization of functional data analysis in decision trees
- Tez No: 814812
- Danışmanlar: DOÇ. DR. İSTEM KESER
- Tez Türü: Doktora
- Konular: Ekonometri, İstatistik, Econometrics, Statistics
- Anahtar Kelimeler: Fonksiyonel Veri Analizi, Çok Değişkenli Fonksiyonel Veri Analizi, Makine Öğrenmesi, Karar Ağaçları, Fonksiyonel Veri ile Sınıflandırma Ağacı, Fonksiyonel Veri ile Regresyon Ağacı, Düzgünleştirme, Büyük Veri, Boyut İndirgeme, COVID-19, Functional Data Analysis, Multivariate Functional Data Analysis, Machine Learning, Decision Trees, Classification Tree with Functional Data, Regression Tree with Functional Data, Smoothing, Big Data, Dimension Reduction, COVID-19
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
- Bilim Dalı: Ekonometri Bilim Dalı
- Sayfa Sayısı: 186
Özet
Veri bilimi, bilişim teknolojilerini kullanarak büyük miktardaki ve hacimdeki verileri analiz etme ve bilgi keşfi sürecidir. Büyük miktardaki veriyi tarama, toplama ve depolama kapasitesindeki gelişmeler sayesinde veriler ölçülerek kaydedilebilmektedir. Ayrıca büyük veri setleri fonksiyonel veri formuna dönüştürülebilmektedir. Ham halde bulunan verinin fonksiyonel biçime dönüştürülmesiyle fonksiyonel verilere (eğri, nesne, obje) ulaşılmaktadır. Veri işleme sürecinde veriden bilgi ve ürün üretme hedefine veri madenciliği, makine öğrenmesi ve istatistik alanları yardımcı olmaktadır. Veri madenciliğinde keşifsel amaçlı kullanılan regresyon ve sınıflandırma analizleri, makine öğrenmesi sürecinde eğitim ve test grupları ile doğrulama amacı ile kullanılmaktadır. Çalışmanın amacı dengeli ham ve fonksiyonel verilerin, makine öğrenimi yaklaşımlarından karar ağaçları ile regresyon ve sınıflandırma ağaçları olarak karşılaştırmalı şekilde analizlerini incelemektir. Böylece çalışmada, fonksiyonel ve fonksiyonel olmayan regresyon ve sınıflandırma ağaçları karşılaştırılmaktadır. Ayrıca baz fonksiyon sayıları değiştirilerek elde edilen fonksiyonlar ile karar ağacı modelindeki değişimler incelenmektedir. Bu amaçla Our Word in Data sitesinden edinilen COVID-19 verileri kullanılmıştır. Analiz, Ocak 2020-Aralık 2022 sürecini kapsamaktadır. Fonksiyonel olarak uyum sağlanan ham veriler sırasıyla 5, 10, 15, 20 ve 30 baz fonksiyon için elde edilen fonksiyonel nesneler ile temsil edilmektedir. Böylece vektörel girdiler fonksiyonel girdilere dönüşmekte ve ham veriyi daha az sayıda fonksiyonel gözlemle temsil eden fonksiyonel bir veri seti elde edilmektedir. Karar ağacı analizlerinin fonksiyonel nesneler dikkate alınarak gerçekleştirilmesi bu çalışmanın özgün yanını oluşturmaktadır. Bu çalışmada en yüksek doğru sınıflandırma oranını 10 baz fonksiyon yaklaşımı ile sınıflandırma karar ağacı modeli yakalamıştır. Bu sonuç, makul sayıda bazdan oluşan baz fonksiyon yaklaşımı ile veriye uyumun, ham veriden daha yüksek performansa sahip bir karar ağacı modeli elde edebileceğini göstermektedir. Ayrıca bu sonuç ham verilerle daha karmaşık yapıda bir karar ağacı modellemek yerine fonksiyonel verilerle modellemenin daha kısa sürede daha basit sonuçlar verebileceğini göstermektedir. Bununla birlikte değişken yığını içerisinden en önemli fonksiyonel değişkenlerin sıyrıldığı daha öz bir karar ağacı elde edilebilmektedir. Ayrıca bu çalışmada baz sayısı azaldıkça fonksiyonel verilerle ağaç geliştirme kuralının erken safhalarında saf hale geldiği ve nispeten küçük ve basit ağaçlar üretildiği görülmüştür. Böylece sürekli bir veri yapısı söz konusu olduğunda büyük boyutta bir karar ağacını uygun bir lambda parametresi ve baz sayısı ile fonksiyonel nesnelerle temsil ederek incelemenin daha uygun olabileceği sonucuna ulaşılmaktadır. Çalışmanın sonucunda fonksiyonel veri ile sınıflandırma karar ağacı analizi, fonksiyonel tahminleyicileri analiz eden alternatif bir yaklaşım olarak sunulmaktadır. Standart karar ağaçlarının fonksiyonel veri ile kullanımı eksik ve uç verilerin varlığında sağlam bir yapıda olup güçlü olmasının yanı sıra esnek ve kullanımı kolay bir yöntemdir. Böylece fonksiyonel nesneler ile modellenen karar ağaçlarının daha iyi sınıflandırma performansı ve daha basit bir ağaç yapısı ile sınıflandırma amacıyla kullanılabileceği ortaya konulmuştur. Bu sayede ham veri ile kurulan ağaç modeline yeni bir yaklaşım önerilmektedir.
Özet (Çeviri)
Data science is the process of analyzing large amounts and volumes of data using information technologies and discovering information. Thanks to the improvements in the capacity of scanning, collecting and storing large amounts of data, data can be measured and recorded. In addition, large data sets can be converted into functional data form. Functional data (curve, object) is reached by converting the raw data into functional form. In the data processing process, data mining, machine learning and statistics fields help to produce information and products from data. Regression and classification analyses which are used for exploratory purposes in data mining, are used for validation with training and test groups in the machine learning process. The aim of this study is to analyze the balanced raw and functional data comparatively as decision trees from machine learning approaches and regression and classification trees. Thus, functional and non-functional regression and classification trees are compared. In addition, the functions obtained by changing the basis function numbers and the changes in the decision tree model are examined. For this purpose, COVID-19 data obtained from Our Word in Data site was used. The analysis covers the period from January 2020 to December 2022. Functionally fitted raw data are represented by functional objects obtained for 5, 10, 15, 20 and 30 basis functions, respectively. Thus, vectorial inputs are transformed into functional inputs and functional data set with fewer numbers representing raw data is obtained. The realization of decision tree analyses by considering functional objects constitutes the original aspect of this study. In this study, the classification decision tree model achieved the highest accurate classification rate with the 10 basis function approach. This result shows that with the basis function approach consisting of a reasonable number of bases, fit to data can obtain a decision tree model with higher performance than raw data. In addition, this result shows that modeling with functional data can yield simpler results in a shorter time, instead of modeling a more complex decision tree with raw data. However, a more concise decision tree can be obtained in which the most important functional variables are stripped from the variable stack. In addition, in this study, it was observed that as the number of bases decreases, the tree development rule with functional data becomes pure in the early stages and relatively small and simple trees are produced. Thus, in the case of a continuous data structure, it is concluded that it may be more appropriate to examine a large decision tree by representing functional objects with an appropriate lambda parameter and base number. As a result, classification decision tree analysis with functional data is presented as an alternative approach to analyze functional predictors. As a functional approach of standard decision trees, it has a robust structure in the presence of missing data and is a flexible and easy-to-use method as well as being powerful. Thus, it has been shown that decision trees modeled with functional objects can be used for better classification performance and classification with a simpler tree. In this way, a new approach to the tree model established with raw data is suggested.
Benzer Tezler
- Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri
Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types
SEVDA DÜLGER
Yüksek Lisans
Türkçe
2004
ZiraatÇanakkale Onsekiz Mart ÜniversitesiBahçe Bitkileri Ana Bilim Dalı
YRD. DOÇ. DR. MURAT ŞEKER
- A composed technical debt identification methodology to predict software vulnerabilities
Yazılım zafiyetlerini tahmin etmek için kapsamlı bir teknik borç tanımlama yöntemi
RUŞEN HALEPMOLLASI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYŞE TOSUN KÜHN
- Logit türel dağılım modeli kalibrasyonu: İstanbul için bir değerlendirme
Logit modal-split model calibration: An evaluation for İstanbul
HİLMİ BERK ÇELİKOĞLU
Yüksek Lisans
Türkçe
2002
İnşaat Mühendisliğiİstanbul Teknik ÜniversitesiUlaştırma Ana Bilim Dalı
PROF. DR. HALUK GERÇEK
- Müşteri ilişkileri açısından çapraz satış performansı ölçümü ve bir araştırma
Measurement of cross selling performance from customer relationship perspective
NEVİN CENAL
- An approach to the determination of adaptable spatial design concept in housing production by using prefabricated building elements
Hazır yapı elemanları ile konut üretiminde uyabilir mekansal tasarım kavramının belirlenmesi üzerine bir yaklaşım
NESLİHAN ONAT
Doktora
İngilizce
1998
MimarlıkDokuz Eylül ÜniversitesiBina Bilgisi (Mimari Tasarım) Ana Bilim Dalı
PROF. DR. ÇETİN TÜRKÇÜ