An investigation of feature selection methods for machine learning
Makine öğrenmesi için öznitelik seçim yöntemlerinin incelenmesi
- Tez No: 904079
- Danışmanlar: DOÇ. DR. İDİL YAVUZ
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
- Anahtar Kelimeler: Makine öğrenmesi, öznitelik seçimi, filtre yöntemleri, sarmalayıcı yöntemler, gömülü yöntemler
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 141
Özet
İçinde bulunduğumuz büyük veri çağında, tıbbi, jeolojik, finansal ve sosyal medya dahil olmak üzere çok sayıda alan veri kaynağı olarak kabul edilmektedir. Verinin artan önemiyle birlikte, giderek artan sayıda kuruluş günlük olarak çok büyük miktarda veri üretmektedir. İstatistik bilimindeki en önemli zorluklardan biri, büyük veri analizi bağlamında çok değişkenli veri setleri arasındaki karşılıklı ilişkileri anlamaktır. Bu ilişkiler, geniş anlamda uygulamalı istatistiksel yöntemlerin kullanılmasıyla geliştirilmiştir. Amaç, mevcut verileri kullanarak mevcut durumu analiz etmek, gelecekteki verilerin özelliklerini ve birbirleriyle olan ilişkilerini tahmin etmektir. Gerçek hayat senaryolarından elde edilen yüksek boyutlu verilerin doğası gereği, özellikler ile hedef değişken arasında korelasyon olmaması, özellikler arasında yüksek korelasyon olması, gözlem sayısının özellik sayısından az olması veya özellik sayısının yorumlamayı engelleyecek kadar fazla olması gibi sorunlar ortaya çıkabilmektedir. Bu durumlar, yanlılık, yorumlanabilirlik eksikliği, iş yükünde artış ve zaman kaybı gibi bir dizi olumsuz sonuca yol açmaktadır. Bunun ışığında, küçültme ve özellik seçme yöntemleri geliştirilmiştir. Özellik seçimi yöntemleri, hangi özelliklerin modele dahil edileceğinin belirlenmesiyle ilgiliyken, küçültme ise model içindeki katsayıların azaltılmasıyla (cezalandırılmasıyla) ilgilidir. Bu yöntemler, hesaplama süresini azaltma, öğrenme performansını iyileştirme, öğrenme modelinin veya verinin daha iyi anlaşılmasını sağlama ve aşırı uyum sorununa etkili bir çözüm sunma etkisine sahiptir. Özellik seçimi; Denetimli, Denetimsiz, Yarı denetimli ve Pekiştirmeli Öğrenme tabanlı olarak kategorize edilir. Her kategori kendi içinde dört alt kategoriye ayrılır: Filtre, Sarmalayıcı, Gömülü ve Hibrit. Bu tezde, Denetimli Öğrenme senaryoları olarak oluşturulan Filtre, Sarmalayıcı ve Gömülü yaklaşımlar ele alınmıştır. Bu tezde, özellik türüne ve hedef değişkene uygun özellik seçim yöntemleri dört farklı gerçek tıbbi veri setine uygulanmıştır. En yaygın kullanılan makine öğrenimi yöntemleri uygulanarak 10 kat çapraz doğrulama tahmin performansları karşılaştırılmıştır. Analiz R programlama dili kullanılarak gerçekleştirilmiştir.
Özet (Çeviri)
In the current era of big data, a multitude of fields, including medical, geological, financial, and social media, are regarded as sources of data. With the growing significance of data, an increasing number of organisations are generating a vast amount of data on a daily basis. One of the pivotal challenges in statistical science is to comprehend the interrelationships between multivariate data sets in the context of big data analysis. These relationships have been developed through the utilisation of applied statistical methods in a broad sense. The objective is to analyse the current situation by utilising the existing data, predict the features of future data and their relations with each other. Due to the nature of high-dimensional data obtained from real-life scenarios, issues such as the lack of correlation between the features and the target variable, high correlation between the features, the number of observations being less than the number of features, or the number of features being so high that interpretation is hindered, may arise. These circumstances give rise to a number of negative consequences, including bias, a lack of interpretability, an increase in workload and a loss of time. In light of this, shrinkage and feature selection methods have been developed. Feature selection methods relate to the identification of which features will be included in the model, while shrinkage is concerned with the reduction of coefficients (punishment) within the model. These methods have the effect of reducing the computation time, improving the learning performance, providing a better understanding of the learning model or data, and offering an effective solution to the over-fitting problem. Feature selection is categorized as Supervised, Unsupervised, Semi-supervised, and iv Reinforcement Learning based. Each category is subdivided into four subcategories: Filter, Wrapper, Embedded, and Hybrid. In this thesis, Filter, Wrapper and Embedded approaches created as Supervised Learning scenarios are discussed. This thesis applies feature selection methods appropriate for the type of features and target variable to four different real medical data sets. The 10-fold cross validation prediction performances were compared by applying the most commonly used machine learning methods. The analysis was conducted using the R programming language
Benzer Tezler
- Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi
Investigation of energy dissipation capacity of RCc shear walls with machine learning methods
BERKAY TOPALOĞLU
Yüksek Lisans
Türkçe
2022
Deprem Mühendisliğiİstanbul Teknik ÜniversitesiDeprem Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP DEĞER
- Makine öğrenmesinde kategorik değişken seçimi
Categorical variable selection in machine learning
ÇAĞRI GÖLEN
Yüksek Lisans
Türkçe
2024
İstatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. SERPİL AKTAŞ ALTUNAY
- Investigation of imbalance problem effects on text categorization
Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması
BEHZAD NADERALVOJOUD
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBRU AKÇAPINAR SEZER
- Antenna design for breast cancer detection and machine learning approach for birth weight prediction
Meme kanseri tespiti için anten tasarımı ve doğum ağırlığı tahmini için makine öğrenmesi yaklaşımı
HALUK KIRKGÖZ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR KURT
- Investigation of artificial intelligence-based point cloud semantic segmentation
Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi
MUHAMMED ENES ATİK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ZAİDE DURAN