Ensemble based feature selection with hybrid model
Hibrit modeli ile topluluk temelli öznitelik seçimi
- Tez No: 571619
- Danışmanlar: DR. ÖĞR. ÜYESİ İZZET GÖKSEL, DOÇ. DR. SÜREYYA AKYÜZ
- Tez Türü: Yüksek Lisans
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Matematik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 76
Özet
Günümüzde teknolojinin gelişmesiyle, özellikle bilgi teknolojileri alanında,“Büyük Veri”kavramı ortaya çıkmıştır. Biriken veri miktarı gün geçtikçe artmakta, bu nedenle büyük veri kavramı önemli bir yere sahip olmuştur. Bununla birlikte, toplanan büyük verilerin ham formu, anlamlı bir bilgi toplamı değildir; anlamlı hale gelebilmesi için çeşitli işlemlerden geçmesi gerekir. Bu nedenle büyük verilerden anlamlı bilgiler elde etmek için“Makine Öğrenimi”teknikleri sıklıkla kullanılır. Ham veri, makine öğrenmesi algoritmasına girdi olarak verildiğinde bu makine için kullanılabilir bir veri olmamaktadır. Algoritmanın yorumlayabileceği forma dönüştürmek için literatürde çeşitli yöntemler kullanılmaktadır.“Öznitelik Çıkarımı”bu yöntemlerden biridir. Bir kan verisi ele alınırsa, kan ham haliyle herhangi bir anlam ifade etmemekte, ancak çeşitli testler uygulandıktan sonra ortaya çıkan kandaki kolestrol miktarı, alyuvar sayısı, antikor sayısı gibi daha anlamlı veriler ile kan hakkında yorum yapılabilmektedir. İşte bu örnekte belirtilen kolestrol miktarı, alyuvar sayısı, antikor sayısı gibi daha anlamlı veriler, öznitelik olarak adlandırılmakta, bu öznitelikleri elde etmeye yarayan tekniklere de öznitelik çıkarımı yöntemleri denmektedir. Eğer kullanılan veri kümesinin tahmin edilmesi istenen bilgileri önceden biliniyorsa, yani veri kümesi etiketli ise, öznitelikler çıkarıldıktan sonra çeşitli sınıflandırma yöntemleriyle modelin tahmin sonucu ve performansı hesaplanabilir. Ancak veride etiket bilgisi bulunmuyorsa, bu öznitelikler çeşitli kümeleme yöntemleri için girdi olarak kullanılır ve sonuç elde edilir. Bununla beraber, veri kümesindeki bazı veriler etiketli, bazıları ise etiketsiz olabilir. Bu durumda, etiketli veriler için çeşitli sınıflandırma algoritmaları, etiketsiz veriler için ise çeşitli kümeleme algoritmaları kullanılır ve elde edilen modelin performansı bu şekilde hesaplanır. Ham veriden çıkartılan her öznitelik, ulaşılmak istenen hedef bilgiyi elde etmede bir anlam ifade etmeyebilir. İşte bu noktada, makine öğrenimi alanındaki bir diğer yöntemin,“Öznitelik Seçme”yöntemlerinin önemi ortaya çıkmaktadır. Öznitelik seçimi, makine öğreniminde modelin performansını önemli ölçüde etkileyen temel kavramlardan biridir. Değişkenlerin kullanımını belirli bir makine öğrenme modeli için en etkili ve en verimli olan yönteme doğru yönlendirmek için öznitelik seçimi yöntemleri sıklıkla kullanılır. Elde edilmek istenen sonuca ulaştıracak özniteliklerin seçimi bu yöntemlerle yapılır, böylelikle kurulan modelin hızı ve performansı önemli ölçüde artar. Bununla birlikte, sadece öznitelik seçme yöntemlerinin kullanılması, modelin performansını artırmak için her zaman yeterli olmayabilir. Bu nedenle literatürde“Topluluk Temelli Teknikler”önerilmiştir. Topluluk temelli teknikler ile öne sürülen hipoteze göre, model üzerinde bir öznitelik seçimi yöntemi kullanmak yerine birden fazla yöntemin aynı anda kullanılması, modelin sonucunun daha kesin olmasını sağlamaktadır. Ayrıca kullanılan veri kümesini rastgele bölerek elde edilen alt veri kümelerinin aynı anda kullanımı da model sonucunu etkileyen bir diğer önemli hipotezdir. Çeşitli öznitelik seçim yöntemlerinin kombinasyonu ve veri kümesi varyasyonu yöntemleri, topluluk temelli teknikler lehinde geliştirilmiştir. Literatürde veri kümesi varyasyonu, fonksiyon varyasyonu ve hibrit varyasyon olarak gruplanabilen üç tür topluluk temelli yaklaşım vardır. Hibrit varyasyonu, aynı anda hem birden fazla öznitelik seçme yöntemi hem de alt veri kümelerinin kullanılmasıyla oluşturulmuş, topluluk temelli bir yöntemdir. Tüm bunlara ek olarak topluluk temelli model içerisindeki her elemanın, modelin sonucunu iyileştirdiği söylenememektedir. İşte bu noktada modelin performansını kötü etkileyen elemanlar, çeşitli yöntemlerle topluluktan çıkartılır. Bu yöntemler bütününe“Topluluk Budama Yöntemleri”denmektedir. Topluluk budama yöntemleri modelin performansını ve kesinliğini önemli ölçüde etkileyen yaklaşımlardır. Bu çalışmada, önerilen model hibrit çeşitlilik topluluğu öğrenme tekniği ile geliştirilmiş ve topluluk budama yöntemi ile desteklenmiştir. Bu tez çalışmasında önerilen model, veri kümesi varyasyonu yöntemi ve fonksiyon varyasyonu yönteminin kombinasyonuyla oluşturulan hibrit modeldir. Hibrit model üzerinde sınıflandırma sonuçlarını elde etmek için“Destek Vektör Makinesi (DVM)”kullanılmış, elde edilen sonuç matrisine“Ortak Kriter”topluluk tabanlı budama yöntemi uygulanıp daha iyi çözümler elde edilmiştir. Bu çalışmanın birinci bölümünde makine öğreniminin genel tanıtımı ve literatürdeki yöntemlerden genel hatlarıyla bahsedilmiştir. Ayrıca, tezin amacı ve hipotezi de bu bölümde verilmiştir. İkinci bölümünde, bu çalışmada kullanılan tüm yöntemler hakkında literatür araştırmalarına ve geçmişte yapılmış olan çalışmalara yer verilmiştir. Bu bölüm topluluk öğrenmesi, sınıflandırma ve topluluk budaması olmak üzere üç alt başlığa bölünmüştür. Topluluk öğrenmesi bölümünde, veri kümesi varyasyonu, tanımı ve yöntemleri, fonksiyon varyasyonu, tanımı, literatürde olan öznitelik seçimi teknikleri ile hibrit varyasyonu ve genel tanımına yer verilmiştir. Sınıflandırma alt başlığında, birkaç sınıflandırma yönteminden genel hatlarıyla bahsedilmiş; bununla birlikte, önerilen modelin temel sınıflandırma yöntemi olan DVM hakkında geniş tanım ve matematiksel alt yapısı anlatılmıştır. Ve son alt başlık, topluluk budama yöntemleri bölümünde, tanımlar ve literatürde önerilmiş topluluk budama alt-yöntemlerine yer verilmiştir. Bu tez çalışmasının üçüncü bölümünde, önerilen“Hibrit Model ile Topluluk Tabanlı Özellik Seçimi”ayrıntılı olarak açıklanmıştır. Öncelikle topluluğu oluşturmak için kullanılan“Torbalama”ve sekiz öznitelik seçimi yönteminin kombinasyonuyla oluşturulmuş hibrit modelin yapısı ve sözde kodlarına yer verilmiştir. Buna göre, kullanılan veri kümesi yüzde 80'i eğitim, yüzde 20'si test veri kümesi olarak ayrılmış, eğitim veri kümesinden torbalama yöntemiyle, her torbada yüz veri olmak üzere otuz torba üretilmiştir. Üretilen her torbaya ayrı ayrı sekiz öznitelik seçim yöntemi uygulanmıştır. Bu öznitelik seçim yöntemleriyle torbalardaki her örnek için yüz öznitelik seçilmiştir. Daha sonra DVM çoklu-sınıf sınıflandırma yönteminin entegre edilmesi anlatılmış, ardından sözde kodu belirtilmiştir. Elde edilen çözüm matrisi üzerine, her torbaya ve her öznitelik seçimine olmak üzere, ortak kriter budama tekniği entegre edilmiş ve alt bir çözüm matrisi elde edilmiştir. Ortak kriter budama tekniği için literatürde önerilen yöntem, kümeleme problemleri üzerinde uygulanmış, ancak bu çalışmada öznitelik seçimi yöntemlerinin sınıflandırma çözümleri üzerinde uygulanmıştır. Buna ek olarak literatürde kümeleme problemlerine uygulanan budama tekniği, ikili çeşitlilikleri içermektedir. Bu çalışmada hem ikili çeşitlilik içeren ortak kriter budama yöntemi hem de ikili olmayan çeşitlilik ile ortak kriter budama tekniği kullanılmıştır. Topluluk budama yöntemi uygulanırken topluluk alt küme kardinalitesi dört, beş, altı, yedi ve sekiz olacak şekilde seçilerek hangi öznitelik yöntemlerinin kesinlik ve çeşitlilik oluşturma açısından daha iyi olduğu saptanmıştır. Dördüncü bölümünde, modelde girdi olarak kullanılan veri kümesi özellikleri ve çalışmada kullanılan platformlardan bahsedilmiştir. Çalışmanın beşinci bölümünde deneysel sonuçlar ve bunların açıklamaları verilmiştir. Bu açıklamalar tablo ve şekillerle desteklenmiştir. Son bölümünde, sonuç ve önerilerden bahsedilmiştir. Elde edilen sonuçlara göre, topluluk boyutu çok büyük olmadığı için ikili çeşitlilik içeren budama yöntemi ile bir ve sekiz arasındaki kardinalitilerde en kesin sonuç elde edilmemiş, topluluğun kardinalitesi artırıldıkça kesinliğin genel olarak arttığı gözlenmiştir. Ancak literatürde kullanılmamış ikili olmayan çeşitlilik içeren budama yöntemi ile, topluluk boyutu küçük olmasına rağmen istenen sonuç elde edilmiş, böylece literatüre bir katkıda bulunulmuştur. Gelecekte yapılacak çalışmalarda farklı tip veri içeren ve farklı büyüklüklere sahip birden fazla veri kümesine bu yöntemler uygulanabilir. Ayrıca topluluğun boyutu artırılarak, yani daha fazla öznitelik seçme yöntemi kullanılıp daha fazla torba üretilerek, çıkan sonuçlar incelenebilir. Tezde kullanılan yöntem dışında başka torbalama yöntemleri de kullanılarak ortaya çıkan sonuçlar kıyaslanabilir. Buna ek olarak, bu çalışmada kullanılan DVM sınıflandırma yöntemi dışında farklı sınıflandırma yöntemleri kullanılarak modellerin başarımları karşılaştırılabilir.
Özet (Çeviri)
Today with the development of technology, especially in the field of information technology,“Big Data”concept emerges. The amount of accumulated data is increasing day by day, for this reason the big data concept has reached an important place. However, the collected big data is not a meaningful collection of information in its raw form, it has to go through a variety of procedures. Therefore,“Machine Learning”techniques are frequently used to obtain meaningful data from big data. Machine Learning research area has highly significant techniques, one of them are Feature Selection Methods. Feature selection is one of the core concepts in machine learning that extremely impacts the performance of the model, because it serves as a fundamental technique to direct the use of variables to what is most effective and efficient for a given machine learning model. However, utilizing feature selection methods alone is not sufficient to improve the performance of the model. Therefore, ensemble based techniques were proposed in the literature. Combination of several feature selection methods and variation in data set aspects were developed under favour of ensemble based techniques. There are three kind of generation approaches analyzed in the literature to generate a diverse ensemble library: Data variation, function variation and hybrid variation. In this study, the proposed model is consubstantiated with hybrid diversity ensemble learning technique and pruning. In brief, the task for“Hybrid Variation”method, which includes both“Data Variation”and“Function Variation”methods with multi-class classification especially“Support Vector Machine”(SVM), is proposed. In addition, the study contains“Joint Criterion”ensemble pruning method. In Chapter 1, general introduction of machine learning and methods in the literature are mentioned. Besides, purpose of the thesis and hypothesis are given. In Chapter 2, literature reviews about all methods that are utilized in this study are given. In this part, there are three main sections: Ensemble learning, classification and ensemble pruning techniques. Regarding ensemble learning, there are following subsections: Data variation, its definition and methods, function variation, its definition, techniques which are in the literarture and hybrid variation. Regarding classification, several classification methods are mentioned; however, the base classifier of the model, i.e. SVM is extensively described. Finally, ensemble pruning and its several methods are given. In Chapter 3, the proposed model“Ensemble Based Feature Selection with Hybrid Model”is explained in detail. The combination of data diversity and function diversity which constructs the hybrid model is given firstly, and then integration of joint criterion pruning approach is clarified step by step. In Chapter 4, the materials which are used in the model and experimental setup are mentioned. In Chapter 5, experimental results and their explanation are given. At last, conclusion and recommendations are mentioned. The results of the study and possible future projects are discussed in this chapter.
Benzer Tezler
- Cilt kanseri sınıflandırması için hibrit derin öğrenme modellerinin geliştirilmesi
Development of hybrid deep learning models for skin cancer classification
İBRAHİM ARUK
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET NUSRET TOPRAK
- A novel ensemble framework for XAİ-based feature selection in machine learning models
Makine öğrenimi modellerinde XAİ tabanlı özellik seçimi için yeni bir ensemble çerçevesi
HALİL İBRAHİM DEMİREL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. SÜREYYA AKYÜZ
- Koroner arter hastalarında hipertansiyonun sınıflandırılması için dengesiz sınıf probleminin tıbbi bilgi keşfi süreci ile giderilmesi
Handling imbalanced class problem for the classification of hypertension in the coronary artery disease patients by using medical knowledge discovery process
AHMET KADİR ARSLAN
Yüksek Lisans
Türkçe
2018
Biyoistatistikİnönü ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. CEMİL ÇOLAK
- Development of new hybrid models for prediction of VO2MAX using machine learning methods combined with feature selection algorithms
Nitelik seçme algoritmalarıyla birleştirilmiş makine öğrenme yöntemleri kullanılarak yeni hibrit VO2MAX tahmin modellerinin geliştirilmesi
FATİH ABUT
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET FATİH AKAY
- Wind energy forecasting methods: A case study of the long short term memory model (LSTM)
Rüzgar enerjı̇sı̇ tahminı̇ yöntemleri: Uzun kısa sürelı̇ bellek modeli (LSTM) örneği
ALI ABDULRAHMAN HUSSEIN SALIHI
Yüksek Lisans
İngilizce
2024
EnerjiKırşehir Ahi Evran ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MERDİN DANIŞMAZ