Makine öğrenmesi uygulamalarında öznitelik seçimi üzerine yeni bir yaklaşım
A new approach on feature selection in machine learning applications
- Tez No: 790807
- Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
- Tez Türü: Doktora
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Enformatik Ana Bilim Dalı
- Bilim Dalı: Enformatik Bilim Dalı
- Sayfa Sayısı: 138
Özet
Sınıflandırma çalışmalarında öznitelik seçimi uygulamaları ile sonuçların iyileştirilmesi sağlanmaktadır. Bu tezde, sınıflandırma için öznitelik seçiminde kullanılabilecek yüksek performanslı alternatif bir yaklaşım önerilmesi amaçlanmaktadır. Son yıllarda, çok amaçlı optimizasyon algoritmalarının öznitelik seçimi çalışmalarında kullanılması ile yüksek performanslı yaklaşımlar önerilmiştir. Bu tez çalışmasında, öznitelik alt kümesi değerlendirme yaklaşımına dayalı olarak hesaplanan korelasyon ve tutarlılık merit değerlerinin oluşturduğu kartezyen uzay üzerinde merit değerlerinin her ikisini de aynı anda maksimize edecek şekilde ideal öznitelik alt kümesi adaylarının belirlenmesi ve bu sınırlı sayıdaki aday için sarmalayıcı yaklaşım kullanılarak nihai öznitelik alt kümesinin seçilmesi önerilmektedir. Literatürde yapılan araştırmalara göre bu tez çalışmasında önerilen kartezyen uzay üzerinde daha önce ..züm arayışına rastlanmamıştır. Korelasyon ve tutarlılık merit değerlerinden oluşan kartezyen uzayda, Pareto ve NSGA-II kullanılarak, iki merit değerini de aynı anda maksimize eden adayların filtrelenmesi sağlanmıştır. Filtrelenen bu adaylar arasında karar vermek için ise her birine sarmalayıcı yaklaşım uygulanarak en yüksek sınıflandırma doğruluğu değerini sağlayan adayın seçilmesi önerilmiştir. Korelasyon ve tutarlılık metrikleri hesaplanması için üzerinde çalışılan veri kümesinde bulunan tüm özniteliklerin kategorik olması sağlanmak zorundadır. Bu nedenle, kategorik veri kümeleri üzerinde yüksek performans ile çalışmakta olan Catboost algoritması sarmalayıcı sınıflandırıcı olarak önerilmiştir. Sınıflandırma görevlerine yönelik çok amaçlı öznitelik alt kümesi seçim çalışmaları kapsamında araştırmacıların çoğunlukla tahmin hata oranını ve öznitelik sayısını minimize etme üzerine yoğunlaştıkları görülmektedir. Bu tez çalışması, iki farklı filtreleyici alt küme skorlama yaklaşımı ve optimizasyon algoritmaları yardımı ile oldukça az sayıda adayın sarmalayıcı aşamada değerlendirilmesini sağlamaktadır. Bu sayede, filtreleyici yaklaşımların sınıflandırma doğruluğu yüksekliğini garanti etmemesi ve sarmalayıcı yaklaşımların yüksek maliyet oluşturması risklerine karşı güçlü bir yaklaşım geliştirilmiştir. UCI veri deposundan temin edilen on farklı veri kümesi üzerinde, korelasyon ve tutarlılık bazlı öznitelik seçimi uygulamalarının yanısıra bu tezde önerilen ÇOKOTUÖS-Pareto ve ÇOKOTUÖS-NSGA II yaklaşımları uygulanmıştır. Uygulamalarda bu tezde önerilen iki yaklaşımın, üzerinde çalışılan on veri kümesinden yedi tanesinde en iyi sonucu sağlamasının yanı sıra Primary Tumor, Breast ve Spect Heart veri kümelerinde korelasyon ve tutarlılık bazlı öznitelik seçimi uygulamalarına üstünlük sağladığı görülmüştür.
Özet (Çeviri)
In classification studies, the results are improved by feature selection applications. In this thesis, it is aimed to propose a high-performance alternative approach to be used in feature selection for classification. In recent years, high-performance approaches have been proposed using multi-objective optimization algorithms in feature selection studies. In this thesis, it is suggested that the ideal feature subset candidates are determined in a way that maximizes both merit values at the same time on the cartesian space formed by the correlation and consistency merit values calculated based on the feature subset evaluation approach and the final feature subset is selected for this limited number of candidates by using the wrapper approach. According to the literature research, a solution has yet to be found on the cartesian space proposed in this study. In the cartesian space consisting of correlation and consistency merit values, by using Pareto and NSGA-II, candidates who maximize both merit values at the same time are filtered. In order to decide among these filtered candidates, it is suggested to choose the candidate that provides the highest classification accuracy by applying a wrapper approach to each of them. In order to calculate correlation and consistency metrics, all attributes in the studied data set must be categorical. For this reason, the Catboost algorithm, which works on high-performance categorical datasets, is proposed as a wrapper classifier. Within the scope of multi-objective feature subset selection studies for classification tasks, researchers mainly focus on minimizing the estimation error rate and the number of features. This thesis study evaluates a few candidates in the wrapper stage with the help of two different filtering subset scoring approaches and optimization algorithms. In this way, a robust approach has been developed against the risks that the filtering approaches do not guarantee high classification accuracy and the high cost of wrapper approaches. On ten different datasets provided on the UCI platform, in addition to the correlation and consistency-based feature selection applications, the MOCOCOFS-Pareto and MOCOCOFS-NSGA II approach proposed in this thesis was applied. In practice, it has been observed that the two approaches proposed in this thesis provide the best results in seven of the ten datasets studied, as well as superior to correlation and consistency based feature selection applications in Primary Tumor, Breast, and Spect Heart datasets.
Benzer Tezler
- Investigation of artificial intelligence-based point cloud semantic segmentation
Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi
MUHAMMED ENES ATİK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ZAİDE DURAN
- Mobil cihazlar için aktivite tanıma tabanlı adaptif kullanıcı arayüzü
Adaptive user interface for mobile devices based on activity recognition
ÖZLEM YURDAKURBAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
- Penetration rate optimization in heterogeneous formations with support vector machines method
Destek vektör makinesi yöntemi ile heterojen formasyonlarda ilerleme hızı optimizasyonu
KORHAN KOR
Doktora
İngilizce
2021
Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik ÜniversitesiPetrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRŞAT ALTUN
- MIXPREP: Machine learning-based multitrack mix preparation assistant
MIXPREP: Çok kanallı ses miksaj hazırlığı için makine öğrenmesi tabanlı asistan
İSMET EMRE YÜCEL
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR