Geri Dön

Metaheuristic approach for optimal data pre-processing method selection case study: Missing values handling

Optimum veri ön işleme yöntemi seçimi için metasezgisel yaklaşimvaka çalişmasi: Eksik değerlerin ele alinmasi

  1. Tez No: 784867
  2. Yazar: SAIED FARHAM NIA
  3. Danışmanlar: Assoc. Prof. Dr. KEMAL KILIÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Endüstri Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Yaşamakta olduğumuz büyük veri çağı, hem araştırma hem de uygulamada sayısız fırsatın ortaya çıkmasına neden olmuştur. Bununla birlikte, potansiyel faydalarına rağmen, eldeki verideki saklı bilginin ortaya çıkarılması ve bilgiye dayalı kararların verilmesi sürecine yönelik önemli derecede zorluklar bulunmaktadır. Bu yüzden de verinin kalitesi, veritabanı yönetim sistemleri ve veri mühendisliği alanlarının ötesinde büyük bir zorluk ve odak alanı haline gelmiştir. Yaygın ve kaçınılmaz bir şekilde bir çok uygulamada karşımıza çıkan veri kümesindeki eksik değerlerin yarattığı sorunların giderilmesi, halen üzerinde aktif olarak çalışılan bir araştırma konusudur. İstatistik ve makine öğrenimi alanlarındaki bilim insanları ve uygulayıcılar bu kapsamda çeşitli yaklaşımlar ve yöntemler geliştirmiş olsalar da, hala iyileştirme için çok yer vardır. Bu araştırmada, veri kümesinin her bir özniteliği için uygun olan eksik veri giderme yönteminin bir meta sezgisel yöntem kullanılarak sistematik bir şekilde belirlendiği bir yaklaşım önerilmiştir. Bu bağlamda, yaygın olarak kullanılan yedi eksik değer giderme yönteminden uygun olanı atayan benzetilmiş tavlama tabanlı bir meta-sezgisel geliştirilmiştir; Her özellik için Ortalama/Mod/Medyan Değerlendirmesi, Hot-Deck, K-NN, Bayesian Ridge Regresyon Değerlendirmesi ve Rastgele Forrest Regresyon Değerlendirmesi. Dört farklı veri kümesi üzerinde deneysel analizler yapılmış ve önerilen yaklaşımın performansı farklı eksiklik seviyelerinde test edilmiştir. Sonuçlar, önerilen yaklaşımın, ayrı ayrı kullanıldıklarında yedi yöntemden daha iyi performansı olduğunu göstermektedir. Bu araştırmanın bulguları, belirli bir veri kümesi için en iyi eksik değeri giderme yönteminin seçilmesine dayanan toptan bir yaklaşımın ayrıntılandırılması gerektiğini ve eksik değerlerin giderilmesi aşamasında özelliklerin ayrı ayrı ele alınması gerektiğini göstermektedir.

Özet (Çeviri)

The current big data era has given rise to many pioneering opportunities both in research and in practice. However, despite the potential benefits, there are also significant challenges in employing the observed data for mining information and creating value based on informed decisions. Indeed, the quality of datasets, as a crucial factor, has become a major challenge and a focus area beyond the fields of database management systems and data engineering. Handling missing values in datasets as a pervasive and unavoidable phenomenon is still the subject of active research. While scientists and practitioners in the fields of statistics and machine learning have introduced various approaches and developed methods, still there is great room for improvement. In this research, a systematic approach for handling the missing values is proposed in which the appropriate method for each feature of a dataset is selected according to the downstream data analytic task in an automated manner. In this regard, a simulated annealing based meta-heuristic has been developed which assigns the appropriate one of the seven commonly used missing value handling methods, namely; Mean/Mode/Median Imputation, Hot-Deck, K-NN, Bayesian Ridge Regression Imputation, and Random Forrest Regression Imputation to each feature. Experimental analysis are conducted on four different datasets and the performance of the proposed approach is tested at different levels of missingness. The results demonstrate that the proposed approach outperforms the seven methods when they are employed separately. The results imply that a wholesale approach which is based on choosing the best missing values handling method for a particular dataset should be granularized and features should be addressed separately during the missing data handling stage.

Benzer Tezler

  1. Medical dataset classification based on different deep learning techniques and meta-heuristic algorithms

    Farklı derin öğrenme teknikleri ve meta-sezgisel algoritmalara dayalı tıbbi veri kümesi sınıflandırması

    YEZI ALI KADHIM

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiAtılım Üniversitesi

    Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı

    PROF. DR. ALOK MISHRA

    PROF. DR. REŞAT ÖZGÜR DORUK

  2. Araç rotalama problemleri için kümeleme algoritmalari ile veri işleme

    Data processing with clustering algorithms for vehicle routing problems

    KEREM BÜYÜKÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ANIL BAŞ

    DOÇ. DR. KAZIM YILDIZ

  3. Veri bilimi ve mühendislik optimizasyon problemlerinin çözümü için yeni bir yaklaşım: Kaotik yapay alg algoritması

    A novel approach to solution of data science and engineering optimization problems: Chaotic artificial algae algorithm

    BAHAEDDİN TÜRKOĞLU

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERSİN KAYA

    DR. ÖĞR. ÜYESİ SAİT ALİ UYMAZ

  4. Akıllı şebekelerde yük yönetimi ve yük tahmini

    Load forecasting and load management in smart grid

    MEHMET ŞEFİK ÜNEY

    Doktora

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiKonya Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NURETTİN ÇETİNKAYA

  5. Büyük ölçekli havayolu ekip eşleme problemlerinin çözümü için bir kolon türetme stratejisi

    A column generation strategy for large scale airline crew pairing problems

    BAHADIR ZEREN

    Doktora

    Türkçe

    Türkçe

    2017

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM OZKOL