Multiobjective evolutionary feature subset selection algorithm for binary classification
İkili sınıflandırma için çok amaçlı evrimsel öznitelik alt kümesi seçimi algoritması
- Tez No: 442354
- Danışmanlar: PROF. DR. AHMET COŞAR, YRD. DOÇ. DR. TANSEL DÖKEROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 96
Özet
Bu çalışmada, ikili sınıflandırmada öznitelik alt küme seçimi problemi üzerine en yeni makine öğrenme algoritmalarıyla birlikte çok amaçlı algoritmaların performansı araştırılmıştır. Yakın zamandaki çalışmalar, en uygun özniteliklerin bulunduğu veri kümesinin ne olduğuna aldırmadan özniteliklerin tamamını kullanmakta ve ikili sınıflandırma problemlerinde doğruluk oranını bu şekilde artırmaya çalışmaktadır. Fakat bazı problemler için öznitelik sayısı binlere kadar ulaştığından karar verme sürecinde hesaplama için çok fazla güç harcanabilmekte ve sonucun doğruluğu azalırken problemi sınıflandırmak zorlaşabilmektedir. Bu nedenle, doğru ikili sınıflandırma sonuçlarına hızlı ulaşabilmek için sonuçların doğruluk oranlarını korurken öznitelik sayısını azaltmak oldukça önemlidir. Bu çalışmada geliştirilen çok amaçlı algoritmalar iki aşamadan oluşmaktadır. Bu aşamalar öznitelik alt kümesini seçmek ve sınıflandırma işlemi için bu küme üzerinde makine öğrenme tekniklerini uygulamaktır. Öznitelik kümelerini seçebilmek için geliştirilen ilk yöntem kaba kuvvet yaklaşımı olmuştur. Kaba kuvvet yaklaşımı bütün öznitelik kümelerini incelemeyi gerektirir. Ancak 20'den fazla öznitelik bulunduğu durumlarda çözüme ulaşmak uygulanabilir bir işlem olmadığından ikinci yöntem olarak bir açgözlü algoritma geliştirilmiş ve yeterince iyi olan öznitelik alt kümeleri elde edilmeye çalışılmıştır. Son olarak, öznitelik alt kümesi seçimi işlemini daha akıllıca yapabilmek için bu aşamada bir evrimsel algoritma önerilmiştir. Çaprazlama ve mutasyon operatörleri seçilen bireylerden (öznitelik alt kümeleri) oluşan popülasyonu nesiller boyunca geliştirmekte ve ideale yakın çözümler elde etmektedir. Geliştirilen algoritmaların ikinci bölümünde, seçilen öznitelik kümelerinin performansı şu makine öğrenme algoritmaları ile hesaplanmıştır: Lojistik Regresyon, Destek Vektör Makineleri, Aşırı Öğrenme Makinesi, K-ortalama ve Benzeşim Yayılımı. En iyi performans gösteren çok amaçlı evrimsel algoritma seçilerek literatürdeki Parçacık Sürüsü Optimizasyonu, Aç Gözlü Arama, Tabu Arama ve Dağılım Arama algoritmaları ile karşılaştırılmıştır. Birçoğu tanınmış Kaliforniya Üniversitesi UCI Makine Öğrenme Deposu'ndan temin edilen 11 farklı veri kümesi, geliştirilen algoritmaların performans değerlendirmelerini yapmak için kullanılmıştır. Elde edilen sonuçlar göstermektedir ki, en uygun öznitelik alt kümesi seçimi ile sınıflandırma doğruluk oranı önemli ölçüde artmakta ve önerilen algoritma veri kümelerine uygulandığında çalışma zamanı oldukça azalmaktadır.
Özet (Çeviri)
This thesis investigates the performance of multiobjective feature subset selection (FSS) algorithms combined with the state-of-the-art machine learning techniques for binary classification problem. Recent studies try to improve the accuracy of classification by including all of the features in the dataset, neglecting to determine the best performing subset of features. However, for some problems, the number of features may reach thousands, which will cause too much computation power to be consumed during the feature evaluation and classification phases, also possibly reducing the accuracy of the results. Therefore, selecting the minimum number of features while preserving the accuracy of the results at a high level becomes an important issue for achieving fast and accurate binary classification. The multiobjective algorithms implemented in this thesis include two phases, selecting feature subsets and applying supervised/unsupervised machine learning techniques to these selected subsets. For the FSS part of the algorithms, first a brute-force approach is implemented. Since exhaustively investigating all of the feature subsets is unfeasible when the number of features is larger than 20, secondly, a greedy algorithm implemented to find good-enough feature subsets. Finally, in order to select the most appropriate feature subsets intelligently, a genetic algorithm is proposed at the FSS part of the algorithms. Crossover and mutation operators are used to improve a population of individuals (each representing a selected feature subset) and obtain (near-)optimal solutions through generations. At the second phase of the algorithms, the performance of the selected feature subsets is evaluated by using five different machine learning techniques: Logistic Regression, Support Vector Machines, Extreme Learning Machine, K-means, and Affinity Propagation. The best performing multiobjective evolutionary algorithm is selected after comprehensive experiments and compared with the state-of-the-art algorithms in literature; Particle Swarm Optimization, Greedy Search, Tabu Search, and Scatter Search. 11 different datasets, mostly obtained from the well-known machine learning data repository of University of California UCI Machine Learning Repository, are used for the performance evaluation of the implemented algorithms. Experimental results show that the classification accuracy increases significantly with the most suitable subset of features and also execution time reduces greatly after applying proposed algorithm on the datasets.
Benzer Tezler
- Multi-objective evolutionary algorithms for multi-label classification supported by deep auto-encoder on image and video data
Çok etiketli sınıflama ̇için çok amaçlı evrimsel algoritmaların derin otokodlayıcı desteği ̇ile resim ve video verilerine uygulanması
GİZEM NUR KARAGÖZ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALİT SEYFULLAH OĞUZTÜZÜN
PROF. DR. ADNAN YAZICI
- Büyük boyutlu veriler için metasezgisel yöntemler ile öznitelik indirgemede yeni bir yaklaşım geliştirilmesi
Developing a new approach to feature selection with metaheuristic methods for large scale data
ESİN AYŞE ZAİMOĞLU
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Neighborhood construction-based multi-objective evolutionary clustering algorithm with feature selection
Komşuluk kurma bazlı çok amaçlı evrimsel kümeleme ve öznitelik seçimi
CANSU ALAKUŞ
Yüksek Lisans
İngilizce
2018
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiYöneylem Araştırması Ana Bilim Dalı
PROF. DR. NUR EVİN ÖZDEMİREL
DOÇ. DR. CEM İYİGÜN
- Interactive evolutionary approaches to multi-objective feature selection
Çok amaçlı değişken seçimine etkileşimli evrimsel yaklaşımlar
MÜBERRA ÖZMEN
Yüksek Lisans
İngilizce
2016
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri ve Sistemler Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA MURAT KÖKSALAN
YRD. DOÇ. DR. GÜLŞAH KARAKAYA
- Meme kanseri hastalarının sağ kalım tahmini için öznitelik seçimi ve sınıflandırma algoritmalarının karşılaştırılması
Feature selection and comparision of classification algorithims for survival of breast cancer patients
GİZEM YAĞMUR ÖZKAN
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEVCAN YILMAZ GÜNDÜZ