Geri Dön

Evaluation of the relationship between the stability of feature selection techniques and classification performance in data mining

Veri madenciliğinde öznitelik seçim tekniklerinin kararlılıkları ve sınıflandırma performansları arasındaki ilişkinin değerlendirilmesi

  1. Tez No: 599735
  2. Yazar: MUSTAFA BÜYÜKKEÇECİ
  3. Danışmanlar: PROF. DR. MEHMET CUDİ OKUR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Yaşar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 146

Özet

Her yıl üretilen ve depolanan veri miktarı üstel olarak artmaktadır. Hem veri kümeleri hem de veri kümesi boyutlarındaki yaşanan bu önemli artış, veri analizi tekniklerini ve algoritmalarını olumsuz yönde etkileyerek karmaşık modellerin üretilmesine, performans kayıplarına ve artan hesaplama maliyetlerine neden olmuştur. Bu problemlerin önlenmesi ve üstesinden gelinmesi için, Öznitelik seçimi gibi, çeşitli veri önişleme teknikleri geliştirilmiştir. Boyut küçültme (indirgeme) tekniği olan öznitelik seçimi, sınıflandırıcıların analiz kalitesini, verimliliğini ve genelleme kapasitesini geliştirmek, hesaplama maliyetlerini azaltmak ve yüksek sınıflandırma veya kümeleme doğruluğuna sahip basit ve anlaşılabilir modeller oluşturmak için kullanılır. Öznitelik seçim algoritmaları tarafından elde edilen öznitelik altkümelerinin sınıflandırma veya kümelenme performanslarının yanı sıra, öznitelik seçim algoritmasının kararlılığı veya sağlamlığı da test edilmelidir. Kararlılık, öznitelik seçim algoritmasının eğitim setinde yapılan değişikliklere karşı hassasiyetinin ölçüsüdür. Düşük hassasiyete sahip algoritma, yani kararlı bir algoritma, eğitim kümesinde yapılan her değişiklikten sonra aynı veya çok benzer sonuçlar (öznitelik altkümeleri veya sıraları) verirken, yüksek hassasiyete sahip algoritma, yani kararsız bir algoritma, her değişiklikten sonra farklı sonuçlar verir. Kararsız bir algoritma tarafından üretilen sonuçlar değişken olacağından, sınıflandırma modellerinin oluşturulmasında kullanılacak sonuçların (öznitelik kümesinin) seçilmesini ve girdi ve çıktılar arasındaki ilişkinin kurulmasını zorlaştırır. Öznitelik seçim algoritmasına olan güveni sarsar. Bu nedenle, algoritma kararlılığı öznitelik seçim algoritmaları için önemli bir başarı kriteridir. Bu tezde kararlılık ile sınıflandırma performansı arasındaki ilişkiyi belirlemek ve yorumlamak için toplam yedi filtreleyen (T-Testi, viiBhattacharyya, Wilcoxon, ROC, Entropi, ReliefF ve Karar Ağacı Topluluğu) ve iki ardışık seçim (Ardışık İleri Öznitelik Seçimi (SFS) ve Ardışık Geri Öznitelik Seçimi (SBS)), veya sarmalayan, öznitelik seçimi algoritması, on iki kararlılık ölçüsü, üç sınıflandırıcı ve yedi gerçek dünya veri kümesi kullanılmıştır.

Özet (Çeviri)

Each year the amount of data produced and stored increases exponentially. This significant increase in both datasets and dataset sizes adversely affects data analysis techniques and algorithms, results in the production of complex models, performance losses and increased computational costs. Various data preprocessing techniques, such as feature selection, have been developed to prevent and overcome these problems. Feature selection, which is a data size (dimension) reduction technique, is used to improve analysis quality, efficiency and generalization capacity of classifiers, to reduce computational costs and to create simple and understandable models that have high classification or clustering accuracy. Besides the classification or clustering performances of the feature subsets obtained by the feature selection algorithms, stability, i.e., robustness, of the feature selection algorithm should also be tested. Stability is the measure of the sensitivity of the feature selection algorithm against the changes (perturbations) made on the training set. Algorithm with low sensitivity, i.e., a stable algorithm, produces the same or very similar results (feature subsets or ranks) after each change done in the training set, whereas algorithm with high sensitivity, i.e., an unstable algorithm, produces different results after each change. Since the results produced by an unstable algorithm will be variant, it makes it difficult to select the result set (feature set) to be used in building classification models and to establish the relationship between inputs and outputs. This undermines trust in the feature selection algorithm. Therefore, algorithm stability is an important success criterion for feature selection algorithms. In this thesis, a total of seven filter (T-Test, Bhattacharyya, Wilcoxon, ROC, Entropy, ReliefF and Decision Tree Ensemble) and two sequential (Sequential Forward Feature Selection (SFS) and Sequential Backward Feature vSelection (SBS)), or wrapper, feature selection algorithms, twelve stability measures, three classifiers and seven real-world datasets were used to determine and interpret the relationship between feature selection algorithm stability and classification performance.

Benzer Tezler

  1. Assessing the potential of Anatolia as a climate refugium

    Anadolu'nun bir iklim sığınağı olma potansiyelinindeğerlendirilmesi

    SONGÜL SÖNMEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Biyolojiİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRAH ÇORAMAN

  2. Derin kazılarda duvar deplasmanlarına ve duvar arkası zemin oturmalarına etki eden faktörler

    Factors affecting the wall displacements and soil settlements which is behind the wall in deep excavations

    ALİ ONUR CÜMELLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSAFFA AYŞEN LAV

  3. Anayasa yargısında yargısal sınırlılık doktrini

    The doctrine of judicial self-restraint in Constitutional adjudication

    ENDER TÜRK

    Doktora

    Türkçe

    Türkçe

    2022

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ŞULE ÖZSOY BOYUNSUZ

  4. Büyükçekmece-Gürpınar yerleşim alanı zemin sınıfı-şev duraylılığı ilişkisi

    Buyukcekmece-Gurpinar residential area relation between soil classification and slope stability

    OSMAN ÖZÇİLİNGİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Jeoloji Mühendisliğiİstanbul Teknik Üniversitesi

    Jeoloji Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ERKAN BOZKURTOĞLU

  5. İstanbul Büyükçekmece Körfezi - Dalyan Burnu - Ambarlı Limanı arası bölgenin yerleşime uygunluğunun araştırılması

    Investigation of the suitability of the region between Istanbul Büyükçekmece Gulf - Dalyan Cape - Ambarli Port

    İBRAHİM ROTO

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Jeoloji Mühendisliğiİstanbul Teknik Üniversitesi

    Jeoloji Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERKAN BOZKURTOĞLU