An investigation of feature selection methods for machine learning

Makine öğrenmesi için öznitelik seçim yöntemlerinin incelenmesi

PDF İndir

Tez No: 904079
Yazar: BUSE NUR BALTACIOĞLU
Danışmanlar: DOÇ. DR. İDİL YAVUZ
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
Anahtar Kelimeler: Makine öğrenmesi, öznitelik seçimi, filtre yöntemleri, sarmalayıcı yöntemler, gömülü yöntemler
Yıl: 2024
Dil: İngilizce
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: İstatistik Bilim Dalı
Sayfa Sayısı: 141

Özet

İçinde bulunduğumuz büyük veri çağında, tıbbi, jeolojik, finansal ve sosyal medya dahil olmak üzere çok sayıda alan veri kaynağı olarak kabul edilmektedir. Verinin artan önemiyle birlikte, giderek artan sayıda kuruluş günlük olarak çok büyük miktarda veri üretmektedir. İstatistik bilimindeki en önemli zorluklardan biri, büyük veri analizi bağlamında çok değişkenli veri setleri arasındaki karşılıklı ilişkileri anlamaktır. Bu ilişkiler, geniş anlamda uygulamalı istatistiksel yöntemlerin kullanılmasıyla geliştirilmiştir. Amaç, mevcut verileri kullanarak mevcut durumu analiz etmek, gelecekteki verilerin özelliklerini ve birbirleriyle olan ilişkilerini tahmin etmektir. Gerçek hayat senaryolarından elde edilen yüksek boyutlu verilerin doğası gereği, özellikler ile hedef değişken arasında korelasyon olmaması, özellikler arasında yüksek korelasyon olması, gözlem sayısının özellik sayısından az olması veya özellik sayısının yorumlamayı engelleyecek kadar fazla olması gibi sorunlar ortaya çıkabilmektedir. Bu durumlar, yanlılık, yorumlanabilirlik eksikliği, iş yükünde artış ve zaman kaybı gibi bir dizi olumsuz sonuca yol açmaktadır. Bunun ışığında, küçültme ve özellik seçme yöntemleri geliştirilmiştir. Özellik seçimi yöntemleri, hangi özelliklerin modele dahil edileceğinin belirlenmesiyle ilgiliyken, küçültme ise model içindeki katsayıların azaltılmasıyla (cezalandırılmasıyla) ilgilidir. Bu yöntemler, hesaplama süresini azaltma, öğrenme performansını iyileştirme, öğrenme modelinin veya verinin daha iyi anlaşılmasını sağlama ve aşırı uyum sorununa etkili bir çözüm sunma etkisine sahiptir. Özellik seçimi; Denetimli, Denetimsiz, Yarı denetimli ve Pekiştirmeli Öğrenme tabanlı olarak kategorize edilir. Her kategori kendi içinde dört alt kategoriye ayrılır: Filtre, Sarmalayıcı, Gömülü ve Hibrit. Bu tezde, Denetimli Öğrenme senaryoları olarak oluşturulan Filtre, Sarmalayıcı ve Gömülü yaklaşımlar ele alınmıştır. Bu tezde, özellik türüne ve hedef değişkene uygun özellik seçim yöntemleri dört farklı gerçek tıbbi veri setine uygulanmıştır. En yaygın kullanılan makine öğrenimi yöntemleri uygulanarak 10 kat çapraz doğrulama tahmin performansları karşılaştırılmıştır. Analiz R programlama dili kullanılarak gerçekleştirilmiştir.

Özet (Çeviri)

In the current era of big data, a multitude of fields, including medical, geological, financial, and social media, are regarded as sources of data. With the growing significance of data, an increasing number of organisations are generating a vast amount of data on a daily basis. One of the pivotal challenges in statistical science is to comprehend the interrelationships between multivariate data sets in the context of big data analysis. These relationships have been developed through the utilisation of applied statistical methods in a broad sense. The objective is to analyse the current situation by utilising the existing data, predict the features of future data and their relations with each other. Due to the nature of high-dimensional data obtained from real-life scenarios, issues such as the lack of correlation between the features and the target variable, high correlation between the features, the number of observations being less than the number of features, or the number of features being so high that interpretation is hindered, may arise. These circumstances give rise to a number of negative consequences, including bias, a lack of interpretability, an increase in workload and a loss of time. In light of this, shrinkage and feature selection methods have been developed. Feature selection methods relate to the identification of which features will be included in the model, while shrinkage is concerned with the reduction of coefficients (punishment) within the model. These methods have the effect of reducing the computation time, improving the learning performance, providing a better understanding of the learning model or data, and offering an effective solution to the over-fitting problem. Feature selection is categorized as Supervised, Unsupervised, Semi-supervised, and iv Reinforcement Learning based. Each category is subdivided into four subcategories: Filter, Wrapper, Embedded, and Hybrid. In this thesis, Filter, Wrapper and Embedded approaches created as Supervised Learning scenarios are discussed. This thesis applies feature selection methods appropriate for the type of features and target variable to four different real medical data sets. The 10-fold cross validation prediction performances were compared by applying the most commonly used machine learning methods. The analysis was conducted using the R programming language

Benzer Tezler

Tez No
774552
Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi
Investigation of energy dissipation capacity of RCc shear walls with machine learning methods
BERKAY TOPALOĞLU
Yüksek Lisans
Türkçe
2022
Deprem Mühendisliği İstanbul Teknik Üniversitesi
Deprem Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP DEĞER
Tez No
899578
Makine öğrenmesinde kategorik değişken seçimi
Categorical variable selection in machine learning
ÇAĞRI GÖLEN
Yüksek Lisans
Türkçe
2024
İstatistik Hacettepe Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. SERPİL AKTAŞ ALTUNAY
Tez No
379646
Investigation of imbalance problem effects on text categorization
Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması
BEHZAD NADERALVOJOUD
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBRU AKÇAPINAR SEZER
Tez No
942684
Dengesiz veri setlerinde smoter ve özellik seçimi yöntemleriyle hibrit regresyon modeli geliştirilmesi
Development of a hybrid regression model using smoter and feature selection methods for imbalanced datasets
EYÜPCAN GÜVEN
Yüksek Lisans
Türkçe
2025
İstatistik Ondokuz Mayıs Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. EMRE DÜNDER
Tez No
846535
Antenna design for breast cancer detection and machine learning approach for birth weight prediction
Meme kanseri tespiti için anten tasarımı ve doğum ağırlığı tahmini için makine öğrenmesi yaklaşımı
HALUK KIRKGÖZ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR KURT

Geri Dön