Yüksek boyut düşük örneklem genişliği durumunda sınıflama algoritmalarının performanslarının karşılaştırılması
A comparison of performances of classification algorithms in high dimension low sample size settings
- Tez No: 420153
- Danışmanlar: DOÇ. DR. ERDEM KARABULUT
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 89
Özet
Günümüzde özellikle genetik, biyoinformatik, tıbbi görüntüleme gibi alanlarda her bir gözleme ait binlerce özelliğin/niteliğin aynı anda ölçülmesine imkan veren teknolojiler oldukça popülerdir. Bu ise“Yüksek Boyut Düşük Örneklem Genişlikli (YBDÖG) Düzenler”olarak adlandırılan farklı bir veri yapısını karşımıza çıkarmakta olup, klasik istatistiksel yöntemlerle bu verilerin analizinde bir takım zorluklar yaşanmaktadır. Yüksek boyutlu verilerin sınıflandırılmasında farklı üstünlüklere sahip farklı makine öğrenmesi yöntemlerinin düşük örneklem genişliği söz konusu olduğunda performanslarındaki değişim ya da yanlılık eğilimleri ise dikkate alınmamaktadır. Bu çalışma ile YBDÖG veri setlerinde Destek Vektör Makineleri (DVM), Uzaklık Ağırlıklı Ayırma (UAA), Random Forest (RForest), Random Ferns (RFerns) ve Naive Bayes (NB) algoritmalarının sınıflama performanslarının karşılaştırılması amaçlanmıştır. Benzetim teknikleri kullanılarak boyut, örneklem genişliği, korelasyon yapısı, gürültü oranı ve prevalans açısından farklı karakteristiklere sahip yapay veri setleri üretilmiştir. Her bir senaryonun 1000 kez tekrarı ile sınıflama performanslarına ilişkin ortalama değerler hesaplanmıştır. Çalışma sonucunda dengeli dağılım durumunda UAA yönteminin diğerlerinden daha iyi performansa sahip olduğu görülmüştür. Diğer taraftan RFerns yöntemi düşük gözlem sayısında diğer yöntemlere göre daha başarılı sonuçlar ortaya koymuştur. Tüm yöntemlerin dengesiz dağılım durumunda klasik veri yapılarında olduğu kadar yüksek başarı sağlamadığı da görülmüştür.
Özet (Çeviri)
Nowadays, technologies that enable measuring thousands of features for each observation are very popular in many areas such as genetic, bioinformatics, medical imaging etc. This leads to different data settings which are called“High Dimension Low Sample Size (HDLSS) Settings”. There are some problems to analyze these settings with classical statistical methods. Performances and bias tendencies of various machine learning algorithms which have different advantages on high dimension are often ignored in case of small sample size. With this thesis, it is aimed to compare classification performances of Support Vector Machine (SVM), Distance Weighted Discrimination (DWD), Random Forest (RForest), Random Ferns (RFerns) and Naive Bayes (NB) algorithms in HDLSS settings. By simulation studies, artificial data sets that have different characteristics in terms of dimension, sample size, correlation structure, noise ratio and prevalance were generated. Each scenario was iterated for 1000 times and mean values for classification performances were calculated. In case of balanced distribution it was seen that DWD show better performance rather than other methods. On the other hand, for low sample size, RFerns revealed good performance. In case of imbalanced distribution, and for all methods, it was also seen that high success as was seen in classical data structure cannot be achieved.
Benzer Tezler
- Synthesis & characterization of CdSe/ZnS quantum dots
CdSe/ZnS kuantum noktalarının sentezi ve karakterizasyonu
HAKAN AYDIN
Yüksek Lisans
İngilizce
2014
Enerjiİstanbul Teknik ÜniversitesiNanobilim ve Nanomühendislik Ana Bilim Dalı
PROF. DR. HİLMİ ÜNLÜ
- Prematüre çocuklarda gelişimsel, davranışsal, coşkusal özellikler ile bunlara etki eden etmenler
Behavioral, emotional and neurodevelopmental outcome and factors related to the development of prematurely born children
AYLİN ÖZBEK
Tıpta Uzmanlık
Türkçe
2002
Çocuk Sağlığı ve HastalıklarıDokuz Eylül ÜniversitesiÇocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF.DR. SÜHA MİRAL
- 4D printing of body temperature responsive hydrogels with self-healing and shape-memory abilities
Kendi kendini onarma ve şekil hafıza özelliklerine sahip vücut sıcaklığına duyarlı hidrojellerin dört boyutlu baskısı
GAMZE AYDIN
Yüksek Lisans
İngilizce
2024
Polimer Bilim ve Teknolojisiİstanbul Teknik ÜniversitesiPolimer Bilim ve Teknolojisi Ana Bilim Dalı
PROF. DR. OĞUZ OKAY
DR. TURDİMUHAMMAD ABDULLAH
- First order noise shaping sar adc with a novel sc filter
Özgün anahtarlamalı kondansatör filtreli birinci derece gürültü şekillendiren ardışıl yaklaşımlı analogdan sayısala dönüştürücü
HÜSEYİN OZAN GÜLEÇ
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İSMAİL ÇEVİK
- Siltli ve killi zeminlerin tekrarlı yükler altındaki davranışı
The cyclic behavior of silty and clayey soils under cyclic loads
MEHMET BARIŞ CAN ÜLKER
Yüksek Lisans
Türkçe
2004
İnşaat Mühendisliğiİstanbul Teknik ÜniversitesiZemin Mekaniği ve Geoteknik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYFER ERKEN