A tree based categorical variable encoding strategy in supervised learning tasks
Ağaç bazlı metod ile kategorik değişkenlerin sayısallaştırılması
- Tez No: 762634
- Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA GÖKÇE BAYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Kategorik değişkenler çoğu datasette bulunur, genellikle yüksek kardinalite kategorik değişkenler olarak adlandırılır ve çok sayıda seviyeden oluşurlar. Çoğu makine öğrenme algoritması, kategorik değişkenleri numerik formata dönüştürmek için bir mekanizmaya sahip değildir, bu nedenle kategorik değişkenlerin kodlanmaları gereklidir. Kategorik değişkenlerin kodlanması, nominal değişkenlerin numerik formata çevrilmesi için kullanılan genel terimdir. Kategorik değişkenlerin kodlanması için birçok kodlama stratejisi mevcuttur ve bu stratejiler bu tezde incelenmektedir. Bu tez, yeni bir kodlama stratejisi olan kategorik bölünmüş kodlamayı ve var olan kodlama metodlarının analizini sunmaktadır. Kategorik bölünmüş kodlama, ağaç tabanlı bir algoritma aracılığıyla, kategorik değişkenler için vektör temsili olarak birincil ve yedek bölünmüş bilgileri kullanır; bu yöntem, bağımlı değişken bilgilerini kullanarak her kategorik değişken için ikili kolonlar üretir. Eksik değerler, karar ağacı algoritmasında izledikleri yola göre benzer kategoriler bir araya kümelenirken, yedek bölünmüş bilgiler kullanılarak doldurulur. Kategorik bölünmüş kodlama ve var olan kodlama metodları karşılaştırılmaktadır. Kategorik bölünmüş kodlama ve diğer kodlama yöntemlerinin performansı, regresyon, ikili ve çok sınıflı sınıflandırma ayarlarından veri kümeleri kullanılarak üç farklı makine öğrenme algoritması (genelleştirilmiş doğrusal modeller, rastgele orman ve xgboost) ile karşılaştırılmıştır. Kullanılan datasetler, deneylerin tekrarlanabilmesi amacıyla herkese açık hale getirilmiştir. Sonuç olarak, kategorik bölünmüş kodlama, mevcut kodlama stratejilerine kıyasla rekabetçi sonuçlar sağlar.
Özet (Çeviri)
Categorical variables are present in most real-world datasets, often consisting of a high number of levels, referred to as high-cardinality categorical variables. Most machine learning algorithms do not have an innate mechanism to deal with categorical variables, hence, their encoding is necessary. Categorical variable encoding is the general term for the conversion of nominal independent variables to a numerical format. Many encoding strategies exist, and they are discussed in this thesis. This thesis presents a novel encoding strategy, categorical split encoding, and also provides an analysis of existing encoding methods. Categorical split encoding uses primary and surrogate split information as the vector representation for categorical variables, through a tree-based algorithm, this method outputs binary columns for each categorical variable making use of target information. Missing values are imputed by using surrogate information, while clustering similar values together based on the path they take through the decision tree algorithm. Various existing encoding strategies are benchmarked for comparison with the proposed strategy. The performance of categorical split encoding and other encoding methods is compared with three different machine learning algorithms (generalized linear models, random forest and xgboost) using datasets from regression, binary and multiclass classification settings. Datasets used are made publicly available for replication purposes. As a result, categorical split encoding provides competitive results compared to existing encoding strategies in various datasets.
Benzer Tezler
- Satış adedini etkileyen değişkenlerin keşfi ve duyarlılık analizi uygulaması: E-ticaret örneği
Discovery of variables affecting the number of sales and application of sensitivity analysis: E-commerce example
RABİA AYDIN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. FETHİ ÇALIŞIR
- CHAID analizi
CHAID analysis
ZÜBEYDE YAĞIZ
Yüksek Lisans
Türkçe
2003
İstatistikGazi Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. SEMRA ERBAŞ ORAL
- Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti
An application of machine learning to anomaly detection in insurance industry using strategic management approach
AYŞE NURBANU ŞAHAN
Yüksek Lisans
Türkçe
2020
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. TOLGA KAYA
- Havayolu yolculuk deneyimini iyileştirmek için makine öğrenmesi yöntemleriyle uçuş gecikmesi tahmini
Machine learning techniques for enhancing airline passenger experience through flight delay prediction
ESMA ERGÜN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Machine learning in solar energy utilization
Solar enerji kullanımında makine öğrenmesi
BURCU ORAL
Doktora
İngilizce
2023
Kimya MühendisliğiBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. RAMAZAN YILDIRIM