Geri Dön

Makine öğrenmesi uygulamalarında öznitelik seçimi üzerine yeni bir yaklaşım

A new approach on feature selection in machine learning applications

  1. Tez No: 790807
  2. Yazar: EMRAH SEZER
  3. Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
  4. Tez Türü: Doktora
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 138

Özet

Sınıflandırma çalışmalarında öznitelik seçimi uygulamaları ile sonuçların iyileştirilmesi sağlanmaktadır. Bu tezde, sınıflandırma için öznitelik seçiminde kullanılabilecek yüksek performanslı alternatif bir yaklaşım önerilmesi amaçlanmaktadır. Son yıllarda, çok amaçlı optimizasyon algoritmalarının öznitelik seçimi çalışmalarında kullanılması ile yüksek performanslı yaklaşımlar önerilmiştir. Bu tez çalışmasında, öznitelik alt kümesi değerlendirme yaklaşımına dayalı olarak hesaplanan korelasyon ve tutarlılık merit değerlerinin oluşturduğu kartezyen uzay üzerinde merit değerlerinin her ikisini de aynı anda maksimize edecek şekilde ideal öznitelik alt kümesi adaylarının belirlenmesi ve bu sınırlı sayıdaki aday için sarmalayıcı yaklaşım kullanılarak nihai öznitelik alt kümesinin seçilmesi önerilmektedir. Literatürde yapılan araştırmalara göre bu tez çalışmasında önerilen kartezyen uzay üzerinde daha önce ..züm arayışına rastlanmamıştır. Korelasyon ve tutarlılık merit değerlerinden oluşan kartezyen uzayda, Pareto ve NSGA-II kullanılarak, iki merit değerini de aynı anda maksimize eden adayların filtrelenmesi sağlanmıştır. Filtrelenen bu adaylar arasında karar vermek için ise her birine sarmalayıcı yaklaşım uygulanarak en yüksek sınıflandırma doğruluğu değerini sağlayan adayın seçilmesi önerilmiştir. Korelasyon ve tutarlılık metrikleri hesaplanması için üzerinde çalışılan veri kümesinde bulunan tüm özniteliklerin kategorik olması sağlanmak zorundadır. Bu nedenle, kategorik veri kümeleri üzerinde yüksek performans ile çalışmakta olan Catboost algoritması sarmalayıcı sınıflandırıcı olarak önerilmiştir. Sınıflandırma görevlerine yönelik çok amaçlı öznitelik alt kümesi seçim çalışmaları kapsamında araştırmacıların çoğunlukla tahmin hata oranını ve öznitelik sayısını minimize etme üzerine yoğunlaştıkları görülmektedir. Bu tez çalışması, iki farklı filtreleyici alt küme skorlama yaklaşımı ve optimizasyon algoritmaları yardımı ile oldukça az sayıda adayın sarmalayıcı aşamada değerlendirilmesini sağlamaktadır. Bu sayede, filtreleyici yaklaşımların sınıflandırma doğruluğu yüksekliğini garanti etmemesi ve sarmalayıcı yaklaşımların yüksek maliyet oluşturması risklerine karşı güçlü bir yaklaşım geliştirilmiştir. UCI veri deposundan temin edilen on farklı veri kümesi üzerinde, korelasyon ve tutarlılık bazlı öznitelik seçimi uygulamalarının yanısıra bu tezde önerilen ÇOKOTUÖS-Pareto ve ÇOKOTUÖS-NSGA II yaklaşımları uygulanmıştır. Uygulamalarda bu tezde önerilen iki yaklaşımın, üzerinde çalışılan on veri kümesinden yedi tanesinde en iyi sonucu sağlamasının yanı sıra Primary Tumor, Breast ve Spect Heart veri kümelerinde korelasyon ve tutarlılık bazlı öznitelik seçimi uygulamalarına üstünlük sağladığı görülmüştür.

Özet (Çeviri)

In classification studies, the results are improved by feature selection applications. In this thesis, it is aimed to propose a high-performance alternative approach to be used in feature selection for classification. In recent years, high-performance approaches have been proposed using multi-objective optimization algorithms in feature selection studies. In this thesis, it is suggested that the ideal feature subset candidates are determined in a way that maximizes both merit values at the same time on the cartesian space formed by the correlation and consistency merit values calculated based on the feature subset evaluation approach and the final feature subset is selected for this limited number of candidates by using the wrapper approach. According to the literature research, a solution has yet to be found on the cartesian space proposed in this study. In the cartesian space consisting of correlation and consistency merit values, by using Pareto and NSGA-II, candidates who maximize both merit values at the same time are filtered. In order to decide among these filtered candidates, it is suggested to choose the candidate that provides the highest classification accuracy by applying a wrapper approach to each of them. In order to calculate correlation and consistency metrics, all attributes in the studied data set must be categorical. For this reason, the Catboost algorithm, which works on high-performance categorical datasets, is proposed as a wrapper classifier. Within the scope of multi-objective feature subset selection studies for classification tasks, researchers mainly focus on minimizing the estimation error rate and the number of features. This thesis study evaluates a few candidates in the wrapper stage with the help of two different filtering subset scoring approaches and optimization algorithms. In this way, a robust approach has been developed against the risks that the filtering approaches do not guarantee high classification accuracy and the high cost of wrapper approaches. On ten different datasets provided on the UCI platform, in addition to the correlation and consistency-based feature selection applications, the MOCOCOFS-Pareto and MOCOCOFS-NSGA II approach proposed in this thesis was applied. In practice, it has been observed that the two approaches proposed in this thesis provide the best results in seven of the ten datasets studied, as well as superior to correlation and consistency based feature selection applications in Primary Tumor, Breast, and Spect Heart datasets.

Benzer Tezler

  1. Investigation of artificial intelligence-based point cloud semantic segmentation

    Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi

    MUHAMMED ENES ATİK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAİDE DURAN

  2. Mobil cihazlar için aktivite tanıma tabanlı adaptif kullanıcı arayüzü

    Adaptive user interface for mobile devices based on activity recognition

    ÖZLEM YURDAKURBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE

  3. Penetration rate optimization in heterogeneous formations with support vector machines method

    Destek vektör makinesi yöntemi ile heterojen formasyonlarda ilerleme hızı optimizasyonu

    KORHAN KOR

    Doktora

    İngilizce

    İngilizce

    2021

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRŞAT ALTUN

  4. MIXPREP: Machine learning-based multitrack mix preparation assistant

    MIXPREP: Çok kanallı ses miksaj hazırlığı için makine öğrenmesi tabanlı asistan

    İSMET EMRE YÜCEL

    Doktora

    İngilizce

    İngilizce

    2022

    Müzikİstanbul Teknik Üniversitesi

    Müzik Ana Bilim Dalı

    DOÇ. DR. TAYLAN ÖZDEMİR

  5. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR