Geri Dön

An investigation of feature selection methods for machine learning

Makine öğrenmesi için öznitelik seçim yöntemlerinin incelenmesi

  1. Tez No: 904079
  2. Yazar: BUSE NUR BALTACIOĞLU
  3. Danışmanlar: DOÇ. DR. İDİL YAVUZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
  6. Anahtar Kelimeler: Makine öğrenmesi, öznitelik seçimi, filtre yöntemleri, sarmalayıcı yöntemler, gömülü yöntemler
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 141

Özet

İçinde bulunduğumuz büyük veri çağında, tıbbi, jeolojik, finansal ve sosyal medya dahil olmak üzere çok sayıda alan veri kaynağı olarak kabul edilmektedir. Verinin artan önemiyle birlikte, giderek artan sayıda kuruluş günlük olarak çok büyük miktarda veri üretmektedir. İstatistik bilimindeki en önemli zorluklardan biri, büyük veri analizi bağlamında çok değişkenli veri setleri arasındaki karşılıklı ilişkileri anlamaktır. Bu ilişkiler, geniş anlamda uygulamalı istatistiksel yöntemlerin kullanılmasıyla geliştirilmiştir. Amaç, mevcut verileri kullanarak mevcut durumu analiz etmek, gelecekteki verilerin özelliklerini ve birbirleriyle olan ilişkilerini tahmin etmektir. Gerçek hayat senaryolarından elde edilen yüksek boyutlu verilerin doğası gereği, özellikler ile hedef değişken arasında korelasyon olmaması, özellikler arasında yüksek korelasyon olması, gözlem sayısının özellik sayısından az olması veya özellik sayısının yorumlamayı engelleyecek kadar fazla olması gibi sorunlar ortaya çıkabilmektedir. Bu durumlar, yanlılık, yorumlanabilirlik eksikliği, iş yükünde artış ve zaman kaybı gibi bir dizi olumsuz sonuca yol açmaktadır. Bunun ışığında, küçültme ve özellik seçme yöntemleri geliştirilmiştir. Özellik seçimi yöntemleri, hangi özelliklerin modele dahil edileceğinin belirlenmesiyle ilgiliyken, küçültme ise model içindeki katsayıların azaltılmasıyla (cezalandırılmasıyla) ilgilidir. Bu yöntemler, hesaplama süresini azaltma, öğrenme performansını iyileştirme, öğrenme modelinin veya verinin daha iyi anlaşılmasını sağlama ve aşırı uyum sorununa etkili bir çözüm sunma etkisine sahiptir. Özellik seçimi; Denetimli, Denetimsiz, Yarı denetimli ve Pekiştirmeli Öğrenme tabanlı olarak kategorize edilir. Her kategori kendi içinde dört alt kategoriye ayrılır: Filtre, Sarmalayıcı, Gömülü ve Hibrit. Bu tezde, Denetimli Öğrenme senaryoları olarak oluşturulan Filtre, Sarmalayıcı ve Gömülü yaklaşımlar ele alınmıştır. Bu tezde, özellik türüne ve hedef değişkene uygun özellik seçim yöntemleri dört farklı gerçek tıbbi veri setine uygulanmıştır. En yaygın kullanılan makine öğrenimi yöntemleri uygulanarak 10 kat çapraz doğrulama tahmin performansları karşılaştırılmıştır. Analiz R programlama dili kullanılarak gerçekleştirilmiştir.

Özet (Çeviri)

In the current era of big data, a multitude of fields, including medical, geological, financial, and social media, are regarded as sources of data. With the growing significance of data, an increasing number of organisations are generating a vast amount of data on a daily basis. One of the pivotal challenges in statistical science is to comprehend the interrelationships between multivariate data sets in the context of big data analysis. These relationships have been developed through the utilisation of applied statistical methods in a broad sense. The objective is to analyse the current situation by utilising the existing data, predict the features of future data and their relations with each other. Due to the nature of high-dimensional data obtained from real-life scenarios, issues such as the lack of correlation between the features and the target variable, high correlation between the features, the number of observations being less than the number of features, or the number of features being so high that interpretation is hindered, may arise. These circumstances give rise to a number of negative consequences, including bias, a lack of interpretability, an increase in workload and a loss of time. In light of this, shrinkage and feature selection methods have been developed. Feature selection methods relate to the identification of which features will be included in the model, while shrinkage is concerned with the reduction of coefficients (punishment) within the model. These methods have the effect of reducing the computation time, improving the learning performance, providing a better understanding of the learning model or data, and offering an effective solution to the over-fitting problem. Feature selection is categorized as Supervised, Unsupervised, Semi-supervised, and iv Reinforcement Learning based. Each category is subdivided into four subcategories: Filter, Wrapper, Embedded, and Hybrid. In this thesis, Filter, Wrapper and Embedded approaches created as Supervised Learning scenarios are discussed. This thesis applies feature selection methods appropriate for the type of features and target variable to four different real medical data sets. The 10-fold cross validation prediction performances were compared by applying the most commonly used machine learning methods. The analysis was conducted using the R programming language

Benzer Tezler

  1. Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi

    Investigation of energy dissipation capacity of RCc shear walls with machine learning methods

    BERKAY TOPALOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Deprem Mühendisliğiİstanbul Teknik Üniversitesi

    Deprem Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEYNEP DEĞER

  2. Makine öğrenmesinde kategorik değişken seçimi

    Categorical variable selection in machine learning

    ÇAĞRI GÖLEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SERPİL AKTAŞ ALTUNAY

  3. Investigation of imbalance problem effects on text categorization

    Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması

    BEHZAD NADERALVOJOUD

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU AKÇAPINAR SEZER

  4. Antenna design for breast cancer detection and machine learning approach for birth weight prediction

    Meme kanseri tespiti için anten tasarımı ve doğum ağırlığı tahmini için makine öğrenmesi yaklaşımı

    HALUK KIRKGÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ONUR KURT

  5. Investigation of artificial intelligence-based point cloud semantic segmentation

    Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi

    MUHAMMED ENES ATİK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAİDE DURAN