Multiobjective evolutionary feature subset selection algorithm for binary classification
İkili sınıflandırma için çok amaçlı evrimsel öznitelik alt kümesi seçimi algoritması
- Tez No: 442354
- Danışmanlar: PROF. DR. AHMET COŞAR, YRD. DOÇ. DR. TANSEL DÖKEROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 96
Özet
Bu çalışmada, ikili sınıflandırmada öznitelik alt küme seçimi problemi üzerine en yeni makine öğrenme algoritmalarıyla birlikte çok amaçlı algoritmaların performansı araştırılmıştır. Yakın zamandaki çalışmalar, en uygun özniteliklerin bulunduğu veri kümesinin ne olduğuna aldırmadan özniteliklerin tamamını kullanmakta ve ikili sınıflandırma problemlerinde doğruluk oranını bu şekilde artırmaya çalışmaktadır. Fakat bazı problemler için öznitelik sayısı binlere kadar ulaştığından karar verme sürecinde hesaplama için çok fazla güç harcanabilmekte ve sonucun doğruluğu azalırken problemi sınıflandırmak zorlaşabilmektedir. Bu nedenle, doğru ikili sınıflandırma sonuçlarına hızlı ulaşabilmek için sonuçların doğruluk oranlarını korurken öznitelik sayısını azaltmak oldukça önemlidir. Bu çalışmada geliştirilen çok amaçlı algoritmalar iki aşamadan oluşmaktadır. Bu aşamalar öznitelik alt kümesini seçmek ve sınıflandırma işlemi için bu küme üzerinde makine öğrenme tekniklerini uygulamaktır. Öznitelik kümelerini seçebilmek için geliştirilen ilk yöntem kaba kuvvet yaklaşımı olmuştur. Kaba kuvvet yaklaşımı bütün öznitelik kümelerini incelemeyi gerektirir. Ancak 20'den fazla öznitelik bulunduğu durumlarda çözüme ulaşmak uygulanabilir bir işlem olmadığından ikinci yöntem olarak bir açgözlü algoritma geliştirilmiş ve yeterince iyi olan öznitelik alt kümeleri elde edilmeye çalışılmıştır. Son olarak, öznitelik alt kümesi seçimi işlemini daha akıllıca yapabilmek için bu aşamada bir evrimsel algoritma önerilmiştir. Çaprazlama ve mutasyon operatörleri seçilen bireylerden (öznitelik alt kümeleri) oluşan popülasyonu nesiller boyunca geliştirmekte ve ideale yakın çözümler elde etmektedir. Geliştirilen algoritmaların ikinci bölümünde, seçilen öznitelik kümelerinin performansı şu makine öğrenme algoritmaları ile hesaplanmıştır: Lojistik Regresyon, Destek Vektör Makineleri, Aşırı Öğrenme Makinesi, K-ortalama ve Benzeşim Yayılımı. En iyi performans gösteren çok amaçlı evrimsel algoritma seçilerek literatürdeki Parçacık Sürüsü Optimizasyonu, Aç Gözlü Arama, Tabu Arama ve Dağılım Arama algoritmaları ile karşılaştırılmıştır. Birçoğu tanınmış Kaliforniya Üniversitesi UCI Makine Öğrenme Deposu'ndan temin edilen 11 farklı veri kümesi, geliştirilen algoritmaların performans değerlendirmelerini yapmak için kullanılmıştır. Elde edilen sonuçlar göstermektedir ki, en uygun öznitelik alt kümesi seçimi ile sınıflandırma doğruluk oranı önemli ölçüde artmakta ve önerilen algoritma veri kümelerine uygulandığında çalışma zamanı oldukça azalmaktadır.
Özet (Çeviri)
This thesis investigates the performance of multiobjective feature subset selection (FSS) algorithms combined with the state-of-the-art machine learning techniques for binary classification problem. Recent studies try to improve the accuracy of classification by including all of the features in the dataset, neglecting to determine the best performing subset of features. However, for some problems, the number of features may reach thousands, which will cause too much computation power to be consumed during the feature evaluation and classification phases, also possibly reducing the accuracy of the results. Therefore, selecting the minimum number of features while preserving the accuracy of the results at a high level becomes an important issue for achieving fast and accurate binary classification. The multiobjective algorithms implemented in this thesis include two phases, selecting feature subsets and applying supervised/unsupervised machine learning techniques to these selected subsets. For the FSS part of the algorithms, first a brute-force approach is implemented. Since exhaustively investigating all of the feature subsets is unfeasible when the number of features is larger than 20, secondly, a greedy algorithm implemented to find good-enough feature subsets. Finally, in order to select the most appropriate feature subsets intelligently, a genetic algorithm is proposed at the FSS part of the algorithms. Crossover and mutation operators are used to improve a population of individuals (each representing a selected feature subset) and obtain (near-)optimal solutions through generations. At the second phase of the algorithms, the performance of the selected feature subsets is evaluated by using five different machine learning techniques: Logistic Regression, Support Vector Machines, Extreme Learning Machine, K-means, and Affinity Propagation. The best performing multiobjective evolutionary algorithm is selected after comprehensive experiments and compared with the state-of-the-art algorithms in literature; Particle Swarm Optimization, Greedy Search, Tabu Search, and Scatter Search. 11 different datasets, mostly obtained from the well-known machine learning data repository of University of California UCI Machine Learning Repository, are used for the performance evaluation of the implemented algorithms. Experimental results show that the classification accuracy increases significantly with the most suitable subset of features and also execution time reduces greatly after applying proposed algorithm on the datasets.
Benzer Tezler
- Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi
Developing a new approach to feature selection with metaheuristic methods for large scale data
ESİN AYŞE ZAİMOĞLU
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Multi-objective evolutionary algorithms for multi-label classification supported by deep auto-encoder on image and video data
Çok etiketli sınıflama ̇için çok amaçlı evrimsel algoritmaların derin otokodlayıcı desteği ̇ile resim ve video verilerine uygulanması
GİZEM NUR KARAGÖZ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALİT SEYFULLAH OĞUZTÜZÜN
PROF. DR. ADNAN YAZICI
- Optimization of the sustainability of contingency logistics networks: Application of a hybrid heuristic & a multi-objective optimization approaches
Beklenmedik durumlar lojistik ağlarının sürdürülebilirliğinin eniyilenmesi: Bir hibrit sezgisel yöntemin ve çok amaçlı eniyileme yaklaşımının uygulanması
HAVVA ESRA DAĞ
Yüksek Lisans
İngilizce
2015
Endüstri ve Endüstri MühendisliğiToros ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MEHMET MİMAN
- Route generation algorithms for public transit network design
Toplu taşıma ağı tasarımı için rota üretim algoritmaları
FATİH KILIÇ
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA GÖK
- Çok amaçlı dinamik etkinlik ölçümü ve etkinliğe etki eden faktörler: ÇA-DVZA modeli ve Türkiye bankacılık sektörü uygulaması
Multi-objective dynamic efficiency measurement and factors affecting efficiency: MA-WDEA model and it's application to Turkish banking system
TEKİNER KAYA