Metaheuristic approach for optimal data pre-processing method selection case study: Missing values handling
Optimum veri ön işleme yöntemi seçimi için metasezgisel yaklaşimvaka çalişmasi: Eksik değerlerin ele alinmasi
- Tez No: 784867
- Danışmanlar: Assoc. Prof. Dr. KEMAL KILIÇ
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Bilim Dalı
- Sayfa Sayısı: 86
Özet
Yaşamakta olduğumuz büyük veri çağı, hem araştırma hem de uygulamada sayısız fırsatın ortaya çıkmasına neden olmuştur. Bununla birlikte, potansiyel faydalarına rağmen, eldeki verideki saklı bilginin ortaya çıkarılması ve bilgiye dayalı kararların verilmesi sürecine yönelik önemli derecede zorluklar bulunmaktadır. Bu yüzden de verinin kalitesi, veritabanı yönetim sistemleri ve veri mühendisliği alanlarının ötesinde büyük bir zorluk ve odak alanı haline gelmiştir. Yaygın ve kaçınılmaz bir şekilde bir çok uygulamada karşımıza çıkan veri kümesindeki eksik değerlerin yarattığı sorunların giderilmesi, halen üzerinde aktif olarak çalışılan bir araştırma konusudur. İstatistik ve makine öğrenimi alanlarındaki bilim insanları ve uygulayıcılar bu kapsamda çeşitli yaklaşımlar ve yöntemler geliştirmiş olsalar da, hala iyileştirme için çok yer vardır. Bu araştırmada, veri kümesinin her bir özniteliği için uygun olan eksik veri giderme yönteminin bir meta sezgisel yöntem kullanılarak sistematik bir şekilde belirlendiği bir yaklaşım önerilmiştir. Bu bağlamda, yaygın olarak kullanılan yedi eksik değer giderme yönteminden uygun olanı atayan benzetilmiş tavlama tabanlı bir meta-sezgisel geliştirilmiştir; Her özellik için Ortalama/Mod/Medyan Değerlendirmesi, Hot-Deck, K-NN, Bayesian Ridge Regresyon Değerlendirmesi ve Rastgele Forrest Regresyon Değerlendirmesi. Dört farklı veri kümesi üzerinde deneysel analizler yapılmış ve önerilen yaklaşımın performansı farklı eksiklik seviyelerinde test edilmiştir. Sonuçlar, önerilen yaklaşımın, ayrı ayrı kullanıldıklarında yedi yöntemden daha iyi performansı olduğunu göstermektedir. Bu araştırmanın bulguları, belirli bir veri kümesi için en iyi eksik değeri giderme yönteminin seçilmesine dayanan toptan bir yaklaşımın ayrıntılandırılması gerektiğini ve eksik değerlerin giderilmesi aşamasında özelliklerin ayrı ayrı ele alınması gerektiğini göstermektedir.
Özet (Çeviri)
The current big data era has given rise to many pioneering opportunities both in research and in practice. However, despite the potential benefits, there are also significant challenges in employing the observed data for mining information and creating value based on informed decisions. Indeed, the quality of datasets, as a crucial factor, has become a major challenge and a focus area beyond the fields of database management systems and data engineering. Handling missing values in datasets as a pervasive and unavoidable phenomenon is still the subject of active research. While scientists and practitioners in the fields of statistics and machine learning have introduced various approaches and developed methods, still there is great room for improvement. In this research, a systematic approach for handling the missing values is proposed in which the appropriate method for each feature of a dataset is selected according to the downstream data analytic task in an automated manner. In this regard, a simulated annealing based meta-heuristic has been developed which assigns the appropriate one of the seven commonly used missing value handling methods, namely; Mean/Mode/Median Imputation, Hot-Deck, K-NN, Bayesian Ridge Regression Imputation, and Random Forrest Regression Imputation to each feature. Experimental analysis are conducted on four different datasets and the performance of the proposed approach is tested at different levels of missingness. The results demonstrate that the proposed approach outperforms the seven methods when they are employed separately. The results imply that a wholesale approach which is based on choosing the best missing values handling method for a particular dataset should be granularized and features should be addressed separately during the missing data handling stage.
Benzer Tezler
- Medical dataset classification based on different deep learning techniques and meta-heuristic algorithms
Farklı derin öğrenme teknikleri ve meta-sezgisel algoritmalara dayalı tıbbi veri kümesi sınıflandırması
YEZI ALI KADHIM
Doktora
İngilizce
2023
Elektrik ve Elektronik MühendisliğiAtılım ÜniversitesiMühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı
PROF. DR. ALOK MISHRA
PROF. DR. REŞAT ÖZGÜR DORUK
- Araç rotalama problemleri için kümeleme algoritmalari ile veri işleme
Data processing with clustering algorithms for vehicle routing problems
KEREM BÜYÜKÖZDEMİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
DOÇ. DR. KAZIM YILDIZ
- Veri bilimi ve mühendislik optimizasyon problemlerinin çözümü için yeni bir yaklaşım: Kaotik yapay alg algoritması
A novel approach to solution of data science and engineering optimization problems: Chaotic artificial algae algorithm
BAHAEDDİN TÜRKOĞLU
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERSİN KAYA
DR. ÖĞR. ÜYESİ SAİT ALİ UYMAZ
- Akıllı şebekelerde yük yönetimi ve yük tahmini
Load forecasting and load management in smart grid
MEHMET ŞEFİK ÜNEY
Doktora
Türkçe
2019
Elektrik ve Elektronik MühendisliğiKonya Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NURETTİN ÇETİNKAYA
- Büyük ölçekli havayolu ekip eşleme problemlerinin çözümü için bir kolon türetme stratejisi
A column generation strategy for large scale airline crew pairing problems
BAHADIR ZEREN
Doktora
Türkçe
2017
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM OZKOL