Metaheuristic approach for optimal data pre-processing method selection case study: Missing values handling

Optimum veri ön işleme yöntemi seçimi için metasezgisel yaklaşim vaka çalışması: Eksik değerlerin ele alınması

PDF İndir

Tez No: 784867
Yazar: SAIED FARHAM NIA
Danışmanlar: Assoc. Prof. Dr. KEMAL KILIÇ
Tez Türü: Yüksek Lisans
Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
Bilim Dalı: Endüstri Bilim Dalı
Sayfa Sayısı: 86

Özet

Yaşamakta olduğumuz büyük veri çağı, hem araştırma hem de uygulamada sayısız fırsatın ortaya çıkmasına neden olmuştur. Bununla birlikte, potansiyel faydalarına rağmen, eldeki verideki saklı bilginin ortaya çıkarılması ve bilgiye dayalı kararların verilmesi sürecine yönelik önemli derecede zorluklar bulunmaktadır. Bu yüzden de verinin kalitesi, veritabanı yönetim sistemleri ve veri mühendisliği alanlarının ötesinde büyük bir zorluk ve odak alanı haline gelmiştir. Yaygın ve kaçınılmaz bir şekilde bir çok uygulamada karşımıza çıkan veri kümesindeki eksik değerlerin yarattığı sorunların giderilmesi, halen üzerinde aktif olarak çalışılan bir araştırma konusudur. İstatistik ve makine öğrenimi alanlarındaki bilim insanları ve uygulayıcılar bu kapsamda çeşitli yaklaşımlar ve yöntemler geliştirmiş olsalar da, hala iyileştirme için çok yer vardır. Bu araştırmada, veri kümesinin her bir özniteliği için uygun olan eksik veri giderme yönteminin bir meta sezgisel yöntem kullanılarak sistematik bir şekilde belirlendiği bir yaklaşım önerilmiştir. Bu bağlamda, yaygın olarak kullanılan yedi eksik değer giderme yönteminden uygun olanı atayan benzetilmiş tavlama tabanlı bir meta-sezgisel geliştirilmiştir; Her özellik için Ortalama/Mod/Medyan Değerlendirmesi, Hot-Deck, K-NN, Bayesian Ridge Regresyon Değerlendirmesi ve Rastgele Forrest Regresyon Değerlendirmesi. Dört farklı veri kümesi üzerinde deneysel analizler yapılmış ve önerilen yaklaşımın performansı farklı eksiklik seviyelerinde test edilmiştir. Sonuçlar, önerilen yaklaşımın, ayrı ayrı kullanıldıklarında yedi yöntemden daha iyi performansı olduğunu göstermektedir. Bu araştırmanın bulguları, belirli bir veri kümesi için en iyi eksik değeri giderme yönteminin seçilmesine dayanan toptan bir yaklaşımın ayrıntılandırılması gerektiğini ve eksik değerlerin giderilmesi aşamasında özelliklerin ayrı ayrı ele alınması gerektiğini göstermektedir.

Özet (Çeviri)

The current big data era has given rise to many pioneering opportunities both in research and in practice. However, despite the potential benefits, there are also significant challenges in employing the observed data for mining information and creating value based on informed decisions. Indeed, the quality of datasets, as a crucial factor, has become a major challenge and a focus area beyond the fields of database management systems and data engineering. Handling missing values in datasets as a pervasive and unavoidable phenomenon is still the subject of active research. While scientists and practitioners in the fields of statistics and machine learning have introduced various approaches and developed methods, still there is great room for improvement. In this research, a systematic approach for handling the missing values is proposed in which the appropriate method for each feature of a dataset is selected according to the downstream data analytic task in an automated manner. In this regard, a simulated annealing based meta-heuristic has been developed which assigns the appropriate one of the seven commonly used missing value handling methods, namely; Mean/Mode/Median Imputation, Hot-Deck, K-NN, Bayesian Ridge Regression Imputation, and Random Forrest Regression Imputation to each feature. Experimental analysis are conducted on four different datasets and the performance of the proposed approach is tested at different levels of missingness. The results demonstrate that the proposed approach outperforms the seven methods when they are employed separately. The results imply that a wholesale approach which is based on choosing the best missing values handling method for a particular dataset should be granularized and features should be addressed separately during the missing data handling stage.

Benzer Tezler

Tez No
776357
Medical dataset classification based on different deep learning techniques and meta-heuristic algorithms
Farklı derin öğrenme teknikleri ve meta-sezgisel algoritmalara dayalı tıbbi veri kümesi sınıflandırması
YEZI ALI KADHIM
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Atılım Üniversitesi
Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı
PROF. DR. ALOK MISHRA
PROF. DR. REŞAT ÖZGÜR DORUK
Tez No
783690
Araç rotalama problemleri için kümeleme algoritmalari ile veri işleme
Data processing with clustering algorithms for vehicle routing problems
KEREM BÜYÜKÖZDEMİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANIL BAŞ
DOÇ. DR. KAZIM YILDIZ
Tez No
733331
Veri bilimi ve mühendislik optimizasyon problemlerinin çözümü için yeni bir yaklaşım: Kaotik yapay alg algoritması
A novel approach to solution of data science and engineering optimization problems: Chaotic artificial algae algorithm
BAHAEDDİN TÜRKOĞLU
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Konya Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERSİN KAYA
DR. ÖĞR. ÜYESİ SAİT ALİ UYMAZ
Tez No
935529
Deepfake detection using machine learning with feature selection by metaheuristic algorithms
Metasezgisel algoritmalarla özellik seçimiyle makine öğrenimi kullanılarak deepfake tespiti
HANAN SALEH .ABU. ALHAJI
Doktora
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜKSEL ÇELİK
Tez No
562691
Akıllı şebekelerde yük yönetimi ve yük tahmini
Load forecasting and load management in smart grid
MEHMET ŞEFİK ÜNEY
Doktora
Türkçe
2019
Elektrik ve Elektronik Mühendisliği Konya Teknik Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NURETTİN ÇETİNKAYA

Geri Dön