Geri Dön

Yüksek boyut düşük örneklem genişliği durumunda sınıflama algoritmalarının performanslarının karşılaştırılması

A comparison of performances of classification algorithms in high dimension low sample size settings

  1. Tez No: 420153
  2. Yazar: ÜLGER AYDOĞAN CULHA
  3. Danışmanlar: DOÇ. DR. ERDEM KARABULUT
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 89

Özet

Günümüzde özellikle genetik, biyoinformatik, tıbbi görüntüleme gibi alanlarda her bir gözleme ait binlerce özelliğin/niteliğin aynı anda ölçülmesine imkan veren teknolojiler oldukça popülerdir. Bu ise“Yüksek Boyut Düşük Örneklem Genişlikli (YBDÖG) Düzenler”olarak adlandırılan farklı bir veri yapısını karşımıza çıkarmakta olup, klasik istatistiksel yöntemlerle bu verilerin analizinde bir takım zorluklar yaşanmaktadır. Yüksek boyutlu verilerin sınıflandırılmasında farklı üstünlüklere sahip farklı makine öğrenmesi yöntemlerinin düşük örneklem genişliği söz konusu olduğunda performanslarındaki değişim ya da yanlılık eğilimleri ise dikkate alınmamaktadır. Bu çalışma ile YBDÖG veri setlerinde Destek Vektör Makineleri (DVM), Uzaklık Ağırlıklı Ayırma (UAA), Random Forest (RForest), Random Ferns (RFerns) ve Naive Bayes (NB) algoritmalarının sınıflama performanslarının karşılaştırılması amaçlanmıştır. Benzetim teknikleri kullanılarak boyut, örneklem genişliği, korelasyon yapısı, gürültü oranı ve prevalans açısından farklı karakteristiklere sahip yapay veri setleri üretilmiştir. Her bir senaryonun 1000 kez tekrarı ile sınıflama performanslarına ilişkin ortalama değerler hesaplanmıştır. Çalışma sonucunda dengeli dağılım durumunda UAA yönteminin diğerlerinden daha iyi performansa sahip olduğu görülmüştür. Diğer taraftan RFerns yöntemi düşük gözlem sayısında diğer yöntemlere göre daha başarılı sonuçlar ortaya koymuştur. Tüm yöntemlerin dengesiz dağılım durumunda klasik veri yapılarında olduğu kadar yüksek başarı sağlamadığı da görülmüştür.

Özet (Çeviri)

Nowadays, technologies that enable measuring thousands of features for each observation are very popular in many areas such as genetic, bioinformatics, medical imaging etc. This leads to different data settings which are called“High Dimension Low Sample Size (HDLSS) Settings”. There are some problems to analyze these settings with classical statistical methods. Performances and bias tendencies of various machine learning algorithms which have different advantages on high dimension are often ignored in case of small sample size. With this thesis, it is aimed to compare classification performances of Support Vector Machine (SVM), Distance Weighted Discrimination (DWD), Random Forest (RForest), Random Ferns (RFerns) and Naive Bayes (NB) algorithms in HDLSS settings. By simulation studies, artificial data sets that have different characteristics in terms of dimension, sample size, correlation structure, noise ratio and prevalance were generated. Each scenario was iterated for 1000 times and mean values for classification performances were calculated. In case of balanced distribution it was seen that DWD show better performance rather than other methods. On the other hand, for low sample size, RFerns revealed good performance. In case of imbalanced distribution, and for all methods, it was also seen that high success as was seen in classical data structure cannot be achieved.

Benzer Tezler

  1. Synthesis & characterization of CdSe/ZnS quantum dots

    CdSe/ZnS kuantum noktalarının sentezi ve karakterizasyonu

    HAKAN AYDIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Enerjiİstanbul Teknik Üniversitesi

    Nanobilim ve Nanomühendislik Ana Bilim Dalı

    PROF. DR. HİLMİ ÜNLÜ

  2. Prematüre çocuklarda gelişimsel, davranışsal, coşkusal özellikler ile bunlara etki eden etmenler

    Behavioral, emotional and neurodevelopmental outcome and factors related to the development of prematurely born children

    AYLİN ÖZBEK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2002

    Çocuk Sağlığı ve HastalıklarıDokuz Eylül Üniversitesi

    Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF.DR. SÜHA MİRAL

  3. 4D printing of body temperature responsive hydrogels with self-healing and shape-memory abilities

    Kendi kendini onarma ve şekil hafıza özelliklerine sahip vücut sıcaklığına duyarlı hidrojellerin dört boyutlu baskısı

    GAMZE AYDIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Polimer Bilim ve Teknolojisiİstanbul Teknik Üniversitesi

    Polimer Bilim ve Teknolojisi Ana Bilim Dalı

    PROF. DR. OĞUZ OKAY

    DR. TURDİMUHAMMAD ABDULLAH

  4. First order noise shaping sar adc with a novel sc filter

    Özgün anahtarlamalı kondansatör filtreli birinci derece gürültü şekillendiren ardışıl yaklaşımlı analogdan sayısala dönüştürücü

    HÜSEYİN OZAN GÜLEÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL ÇEVİK

  5. Siltli ve killi zeminlerin tekrarlı yükler altındaki davranışı

    The cyclic behavior of silty and clayey soils under cyclic loads

    MEHMET BARIŞ CAN ÜLKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    Zemin Mekaniği ve Geoteknik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYFER ERKEN