Geri Dön

Fonksiyonel veri analizinin karar ağaçlarında kullanımı

Utilization of functional data analysis in decision trees

  1. Tez No: 814812
  2. Yazar: BURCU KOCARIK GACAR
  3. Danışmanlar: DOÇ. DR. İSTEM KESER
  4. Tez Türü: Doktora
  5. Konular: Ekonometri, İstatistik, Econometrics, Statistics
  6. Anahtar Kelimeler: Fonksiyonel Veri Analizi, Çok Değişkenli Fonksiyonel Veri Analizi, Makine Öğrenmesi, Karar Ağaçları, Fonksiyonel Veri ile Sınıflandırma Ağacı, Fonksiyonel Veri ile Regresyon Ağacı, Düzgünleştirme, Büyük Veri, Boyut İndirgeme, COVID-19, Functional Data Analysis, Multivariate Functional Data Analysis, Machine Learning, Decision Trees, Classification Tree with Functional Data, Regression Tree with Functional Data, Smoothing, Big Data, Dimension Reduction, COVID-19
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
  12. Bilim Dalı: Ekonometri Bilim Dalı
  13. Sayfa Sayısı: 186

Özet

Veri bilimi, bilişim teknolojilerini kullanarak büyük miktardaki ve hacimdeki verileri analiz etme ve bilgi keşfi sürecidir. Büyük miktardaki veriyi tarama, toplama ve depolama kapasitesindeki gelişmeler sayesinde veriler ölçülerek kaydedilebilmektedir. Ayrıca büyük veri setleri fonksiyonel veri formuna dönüştürülebilmektedir. Ham halde bulunan verinin fonksiyonel biçime dönüştürülmesiyle fonksiyonel verilere (eğri, nesne, obje) ulaşılmaktadır. Veri işleme sürecinde veriden bilgi ve ürün üretme hedefine veri madenciliği, makine öğrenmesi ve istatistik alanları yardımcı olmaktadır. Veri madenciliğinde keşifsel amaçlı kullanılan regresyon ve sınıflandırma analizleri, makine öğrenmesi sürecinde eğitim ve test grupları ile doğrulama amacı ile kullanılmaktadır. Çalışmanın amacı dengeli ham ve fonksiyonel verilerin, makine öğrenimi yaklaşımlarından karar ağaçları ile regresyon ve sınıflandırma ağaçları olarak karşılaştırmalı şekilde analizlerini incelemektir. Böylece çalışmada, fonksiyonel ve fonksiyonel olmayan regresyon ve sınıflandırma ağaçları karşılaştırılmaktadır. Ayrıca baz fonksiyon sayıları değiştirilerek elde edilen fonksiyonlar ile karar ağacı modelindeki değişimler incelenmektedir. Bu amaçla Our Word in Data sitesinden edinilen COVID-19 verileri kullanılmıştır. Analiz, Ocak 2020-Aralık 2022 sürecini kapsamaktadır. Fonksiyonel olarak uyum sağlanan ham veriler sırasıyla 5, 10, 15, 20 ve 30 baz fonksiyon için elde edilen fonksiyonel nesneler ile temsil edilmektedir. Böylece vektörel girdiler fonksiyonel girdilere dönüşmekte ve ham veriyi daha az sayıda fonksiyonel gözlemle temsil eden fonksiyonel bir veri seti elde edilmektedir. Karar ağacı analizlerinin fonksiyonel nesneler dikkate alınarak gerçekleştirilmesi bu çalışmanın özgün yanını oluşturmaktadır. Bu çalışmada en yüksek doğru sınıflandırma oranını 10 baz fonksiyon yaklaşımı ile sınıflandırma karar ağacı modeli yakalamıştır. Bu sonuç, makul sayıda bazdan oluşan baz fonksiyon yaklaşımı ile veriye uyumun, ham veriden daha yüksek performansa sahip bir karar ağacı modeli elde edebileceğini göstermektedir. Ayrıca bu sonuç ham verilerle daha karmaşık yapıda bir karar ağacı modellemek yerine fonksiyonel verilerle modellemenin daha kısa sürede daha basit sonuçlar verebileceğini göstermektedir. Bununla birlikte değişken yığını içerisinden en önemli fonksiyonel değişkenlerin sıyrıldığı daha öz bir karar ağacı elde edilebilmektedir. Ayrıca bu çalışmada baz sayısı azaldıkça fonksiyonel verilerle ağaç geliştirme kuralının erken safhalarında saf hale geldiği ve nispeten küçük ve basit ağaçlar üretildiği görülmüştür. Böylece sürekli bir veri yapısı söz konusu olduğunda büyük boyutta bir karar ağacını uygun bir lambda parametresi ve baz sayısı ile fonksiyonel nesnelerle temsil ederek incelemenin daha uygun olabileceği sonucuna ulaşılmaktadır. Çalışmanın sonucunda fonksiyonel veri ile sınıflandırma karar ağacı analizi, fonksiyonel tahminleyicileri analiz eden alternatif bir yaklaşım olarak sunulmaktadır. Standart karar ağaçlarının fonksiyonel veri ile kullanımı eksik ve uç verilerin varlığında sağlam bir yapıda olup güçlü olmasının yanı sıra esnek ve kullanımı kolay bir yöntemdir. Böylece fonksiyonel nesneler ile modellenen karar ağaçlarının daha iyi sınıflandırma performansı ve daha basit bir ağaç yapısı ile sınıflandırma amacıyla kullanılabileceği ortaya konulmuştur. Bu sayede ham veri ile kurulan ağaç modeline yeni bir yaklaşım önerilmektedir.

Özet (Çeviri)

Data science is the process of analyzing large amounts and volumes of data using information technologies and discovering information. Thanks to the improvements in the capacity of scanning, collecting and storing large amounts of data, data can be measured and recorded. In addition, large data sets can be converted into functional data form. Functional data (curve, object) is reached by converting the raw data into functional form. In the data processing process, data mining, machine learning and statistics fields help to produce information and products from data. Regression and classification analyses which are used for exploratory purposes in data mining, are used for validation with training and test groups in the machine learning process. The aim of this study is to analyze the balanced raw and functional data comparatively as decision trees from machine learning approaches and regression and classification trees. Thus, functional and non-functional regression and classification trees are compared. In addition, the functions obtained by changing the basis function numbers and the changes in the decision tree model are examined. For this purpose, COVID-19 data obtained from Our Word in Data site was used. The analysis covers the period from January 2020 to December 2022. Functionally fitted raw data are represented by functional objects obtained for 5, 10, 15, 20 and 30 basis functions, respectively. Thus, vectorial inputs are transformed into functional inputs and functional data set with fewer numbers representing raw data is obtained. The realization of decision tree analyses by considering functional objects constitutes the original aspect of this study. In this study, the classification decision tree model achieved the highest accurate classification rate with the 10 basis function approach. This result shows that with the basis function approach consisting of a reasonable number of bases, fit to data can obtain a decision tree model with higher performance than raw data. In addition, this result shows that modeling with functional data can yield simpler results in a shorter time, instead of modeling a more complex decision tree with raw data. However, a more concise decision tree can be obtained in which the most important functional variables are stripped from the variable stack. In addition, in this study, it was observed that as the number of bases decreases, the tree development rule with functional data becomes pure in the early stages and relatively small and simple trees are produced. Thus, in the case of a continuous data structure, it is concluded that it may be more appropriate to examine a large decision tree by representing functional objects with an appropriate lambda parameter and base number. As a result, classification decision tree analysis with functional data is presented as an alternative approach to analyze functional predictors. As a functional approach of standard decision trees, it has a robust structure in the presence of missing data and is a flexible and easy-to-use method as well as being powerful. Thus, it has been shown that decision trees modeled with functional objects can be used for better classification performance and classification with a simpler tree. In this way, a new approach to the tree model established with raw data is suggested.

Benzer Tezler

  1. Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri

    Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types

    SEVDA DÜLGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    ZiraatÇanakkale Onsekiz Mart Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT ŞEKER

  2. A composed technical debt identification methodology to predict software vulnerabilities

    Yazılım zafiyetlerini tahmin etmek için kapsamlı bir teknik borç tanımlama yöntemi

    RUŞEN HALEPMOLLASI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYŞE TOSUN KÜHN

  3. Logit türel dağılım modeli kalibrasyonu: İstanbul için bir değerlendirme

    Logit modal-split model calibration: An evaluation for İstanbul

    HİLMİ BERK ÇELİKOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Ulaştırma Ana Bilim Dalı

    PROF. DR. HALUK GERÇEK

  4. Müşteri ilişkileri açısından çapraz satış performansı ölçümü ve bir araştırma

    Measurement of cross selling performance from customer relationship perspective

    NEVİN CENAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    İşletmeGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. VOLKAN DEMİR

  5. An approach to the determination of adaptable spatial design concept in housing production by using prefabricated building elements

    Hazır yapı elemanları ile konut üretiminde uyabilir mekansal tasarım kavramının belirlenmesi üzerine bir yaklaşım

    NESLİHAN ONAT

    Doktora

    İngilizce

    İngilizce

    1998

    MimarlıkDokuz Eylül Üniversitesi

    Bina Bilgisi (Mimari Tasarım) Ana Bilim Dalı

    PROF. DR. ÇETİN TÜRKÇÜ