Geri Dön

A tree based categorical variable encoding strategy in supervised learning tasks

Ağaç bazlı metod ile kategorik değişkenlerin sayısallaştırılması

  1. Tez No: 762634
  2. Yazar: MİNE GAZİOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 71

Özet

Kategorik değişkenler çoğu datasette bulunur, genellikle yüksek kardinalite kategorik değişkenler olarak adlandırılır ve çok sayıda seviyeden oluşurlar. Çoğu makine öğrenme algoritması, kategorik değişkenleri numerik formata dönüştürmek için bir mekanizmaya sahip değildir, bu nedenle kategorik değişkenlerin kodlanmaları gereklidir. Kategorik değişkenlerin kodlanması, nominal değişkenlerin numerik formata çevrilmesi için kullanılan genel terimdir. Kategorik değişkenlerin kodlanması için birçok kodlama stratejisi mevcuttur ve bu stratejiler bu tezde incelenmektedir. Bu tez, yeni bir kodlama stratejisi olan kategorik bölünmüş kodlamayı ve var olan kodlama metodlarının analizini sunmaktadır. Kategorik bölünmüş kodlama, ağaç tabanlı bir algoritma aracılığıyla, kategorik değişkenler için vektör temsili olarak birincil ve yedek bölünmüş bilgileri kullanır; bu yöntem, bağımlı değişken bilgilerini kullanarak her kategorik değişken için ikili kolonlar üretir. Eksik değerler, karar ağacı algoritmasında izledikleri yola göre benzer kategoriler bir araya kümelenirken, yedek bölünmüş bilgiler kullanılarak doldurulur. Kategorik bölünmüş kodlama ve var olan kodlama metodları karşılaştırılmaktadır. Kategorik bölünmüş kodlama ve diğer kodlama yöntemlerinin performansı, regresyon, ikili ve çok sınıflı sınıflandırma ayarlarından veri kümeleri kullanılarak üç farklı makine öğrenme algoritması (genelleştirilmiş doğrusal modeller, rastgele orman ve xgboost) ile karşılaştırılmıştır. Kullanılan datasetler, deneylerin tekrarlanabilmesi amacıyla herkese açık hale getirilmiştir. Sonuç olarak, kategorik bölünmüş kodlama, mevcut kodlama stratejilerine kıyasla rekabetçi sonuçlar sağlar.

Özet (Çeviri)

Categorical variables are present in most real-world datasets, often consisting of a high number of levels, referred to as high-cardinality categorical variables. Most machine learning algorithms do not have an innate mechanism to deal with categorical variables, hence, their encoding is necessary. Categorical variable encoding is the general term for the conversion of nominal independent variables to a numerical format. Many encoding strategies exist, and they are discussed in this thesis. This thesis presents a novel encoding strategy, categorical split encoding, and also provides an analysis of existing encoding methods. Categorical split encoding uses primary and surrogate split information as the vector representation for categorical variables, through a tree-based algorithm, this method outputs binary columns for each categorical variable making use of target information. Missing values are imputed by using surrogate information, while clustering similar values together based on the path they take through the decision tree algorithm. Various existing encoding strategies are benchmarked for comparison with the proposed strategy. The performance of categorical split encoding and other encoding methods is compared with three different machine learning algorithms (generalized linear models, random forest and xgboost) using datasets from regression, binary and multiclass classification settings. Datasets used are made publicly available for replication purposes. As a result, categorical split encoding provides competitive results compared to existing encoding strategies in various datasets.

Benzer Tezler

  1. Satış adedini etkileyen değişkenlerin keşfi ve duyarlılık analizi uygulaması: E-ticaret örneği

    Discovery of variables affecting the number of sales and application of sensitivity analysis: E-commerce example

    RABİA AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. FETHİ ÇALIŞIR

  2. CHAID analizi

    CHAID analysis

    ZÜBEYDE YAĞIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SEMRA ERBAŞ ORAL

  3. Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti

    An application of machine learning to anomaly detection in insurance industry using strategic management approach

    AYŞE NURBANU ŞAHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. TOLGA KAYA

  4. Havayolu yolculuk deneyimini iyileştirmek için makine öğrenmesi yöntemleriyle uçuş gecikmesi tahmini

    Machine learning techniques for enhancing airline passenger experience through flight delay prediction

    ESMA ERGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  5. Machine learning in solar energy utilization

    Solar enerji kullanımında makine öğrenmesi

    BURCU ORAL

    Doktora

    İngilizce

    İngilizce

    2023

    Kimya MühendisliğiBoğaziçi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. RAMAZAN YILDIRIM