Küçük örneklem çaplı yüksek boyutlu verilerde klasik ve sağlam kümeleme yöntemlerinin performanslarının karşılaştırılması
Performance comparisons of classical and robust clustering methods for high dimensional and low sample size data
- Tez No: 966121
- Danışmanlar: PROF. DR. NECLA GÜNDÜZ TEKİN
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Günümüzde, özellikle genom verisi gibi Küçük Örneklem Çaplı Yüksek Boyutlu (KÖÇYB) veri setleri üzerine yapılan çalışmalar önem kazanmıştır. Bu tür veri yapısında, değişken sayısının örnek çapından fazla olması (p>>n), analiz süreçlerinde çeşitli zorluklara yol açmakta; özellikle kümeleme analizlerinde uzaklık hesaplamalarının güvenilirliğini azaltarak kümelerin sağlıklı bir şekilde belirlenmesini güçleştirmektedir. Bu çalışmada, yapısal zorluklara ek olarak aykırı gözlemler ve karışma (kontaminasyon) gibi bozulmaların etkisi altında, klasik ve sağlam kümeleme algoritmalarının performansı değerlendirilmiştir. Kümeleme performansı ölçümü, dışsal doğrulama ölçütü olan Ayarlanmış Rand (AR) indeksi ve içsel doğrulama ölçütleri olan Calinski-Harabasz (CH), Silhouette ve Dunn indeksleri aracılığıyla yapılmıştır. Analizler, hem kanserle ilişkili genomik veri setleri hem de farklı aykırı gözlemler ve karışma oranları içeren simülasyonlar aracılığıyla, R programlama dili kullanılarak gerçekleştirilmiştir. Simülasyon çalışması sonucunda, sağlam kümeleme yöntemlerinden kırpılmış k-ortalamalar ve k-medyan algortimalarının KÖÇYB veri yapılarında klasik algoritmalardan daha başarılı olduğu gözlemlenmiştir. Kümeleme algoritmalarının başarısı yanlızca yöntemsel yeterliliğe değil, aynı zamanda veri yapısının özelliklerine de bağlı olması nedeniyle, başarı ölçütlerinin yorumlanmasında veri setinin yüksek boyutluluğu, örnek çapı, içerdiği aykırı gözlemler ve karışma durumu gibi faktörler dikkate alınarak değerlendirilmiştir.
Özet (Çeviri)
Nowadays, studies focusing on High-Dimensional Low Sample Size (HDLSS) datasets, particularly genomic data, have gained significant importance. In such data structures, the number of variables exceeds the number of observations (p >> n), which creates various challenges in the analysis process. Especially in clustering analysis, this situation reduces the reliability of distance calculations, making it more difficult to accurately identify cluster structures. In this study, the performance of classical and robust clustering algorithms was evaluated under both structural challenges and the presence of data imperfections such as outliers and contamination. Clustering performance was assessed using the Adjusted Rand Index (AR) as an external validation measure, along with Calinski-Harabasz (CH), Silhouette, and Dunn indices as internal validation metrics. The analyses were performed in the R programming language using both cancer-related genomic datasets and simulations incorporating varying levels of outliers and contamination. The simulation results revealed that robust clustering algorithms, particularly trimmed k-means and k-median, tend to outperform classical methods when applied to HDLSS data structures. Since the success of clustering algorithms depends not only on methodological adequacy but also on the inherent characteristics of the dataset, the evaluation of clustering performance considered critical factors such as high dimensionality, sample size, the presence of outliers, and contamination levels.
Benzer Tezler
- Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
- Filament beslemeli 3 boyutlu yazıcılarda imalat parametrelerinin optimizasyonu
Optimization of manufacturing parameters in FDM 3D printers
ONUR HIRA
Yüksek Lisans
Türkçe
2019
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ATAKAN ALTINKAYNAK
- Examination and mathematical modelling of shrinkage rate of uniform droplets in a microfluidic system designed for biopreservation
Biyosaklama amacıyla tasarlanan mikroakışkan düzenekte eşboyutlu sulu damlacıkların küçülme hızının incelenmesi ve matematiksel modellenmesi
UFUK OKUMUŞ
Yüksek Lisans
İngilizce
2015
Bilim ve TeknolojiHacettepe ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELİS ÖNEL
- Estimating forest parameters using point cloud data
Orman parametrelerinin nokta bulutu verilerinden çıkarımı
ADİL ENİS ARSLAN
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ESRA ERTEN
- Functional chocolate development: Enrichment of dark chocolate with nano-liposome encapsulated antioxidants, and/or pro- and pre-biotics, bioavailability studies
Fonksiyonel çikolata geliştirilmesi: Bitter çikolatanın nano-lipozomla enkapsüle edilen antioksidanlarla, ve/veya pro- ve pre-biyotiklerle zenginleştirilmesi, biyoyararlılık çalışmaları
MİNE ÖZGÜVEN
Doktora
İngilizce
2014
Gıda Mühendisliğiİstanbul Teknik ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
PROF. DR. BERAAT ÖZÇELİK