Geri Dön

Küçük örneklem çaplı yüksek boyutlu verilerde klasik ve sağlam kümeleme yöntemlerinin performanslarının karşılaştırılması

Performance comparisons of classical and robust clustering methods for high dimensional and low sample size data

  1. Tez No: 966121
  2. Yazar: GÜLŞAH KILIÇ
  3. Danışmanlar: PROF. DR. NECLA GÜNDÜZ TEKİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Günümüzde, özellikle genom verisi gibi Küçük Örneklem Çaplı Yüksek Boyutlu (KÖÇYB) veri setleri üzerine yapılan çalışmalar önem kazanmıştır. Bu tür veri yapısında, değişken sayısının örnek çapından fazla olması (p>>n), analiz süreçlerinde çeşitli zorluklara yol açmakta; özellikle kümeleme analizlerinde uzaklık hesaplamalarının güvenilirliğini azaltarak kümelerin sağlıklı bir şekilde belirlenmesini güçleştirmektedir. Bu çalışmada, yapısal zorluklara ek olarak aykırı gözlemler ve karışma (kontaminasyon) gibi bozulmaların etkisi altında, klasik ve sağlam kümeleme algoritmalarının performansı değerlendirilmiştir. Kümeleme performansı ölçümü, dışsal doğrulama ölçütü olan Ayarlanmış Rand (AR) indeksi ve içsel doğrulama ölçütleri olan Calinski-Harabasz (CH), Silhouette ve Dunn indeksleri aracılığıyla yapılmıştır. Analizler, hem kanserle ilişkili genomik veri setleri hem de farklı aykırı gözlemler ve karışma oranları içeren simülasyonlar aracılığıyla, R programlama dili kullanılarak gerçekleştirilmiştir. Simülasyon çalışması sonucunda, sağlam kümeleme yöntemlerinden kırpılmış k-ortalamalar ve k-medyan algortimalarının KÖÇYB veri yapılarında klasik algoritmalardan daha başarılı olduğu gözlemlenmiştir. Kümeleme algoritmalarının başarısı yanlızca yöntemsel yeterliliğe değil, aynı zamanda veri yapısının özelliklerine de bağlı olması nedeniyle, başarı ölçütlerinin yorumlanmasında veri setinin yüksek boyutluluğu, örnek çapı, içerdiği aykırı gözlemler ve karışma durumu gibi faktörler dikkate alınarak değerlendirilmiştir.

Özet (Çeviri)

Nowadays, studies focusing on High-Dimensional Low Sample Size (HDLSS) datasets, particularly genomic data, have gained significant importance. In such data structures, the number of variables exceeds the number of observations (p >> n), which creates various challenges in the analysis process. Especially in clustering analysis, this situation reduces the reliability of distance calculations, making it more difficult to accurately identify cluster structures. In this study, the performance of classical and robust clustering algorithms was evaluated under both structural challenges and the presence of data imperfections such as outliers and contamination. Clustering performance was assessed using the Adjusted Rand Index (AR) as an external validation measure, along with Calinski-Harabasz (CH), Silhouette, and Dunn indices as internal validation metrics. The analyses were performed in the R programming language using both cancer-related genomic datasets and simulations incorporating varying levels of outliers and contamination. The simulation results revealed that robust clustering algorithms, particularly trimmed k-means and k-median, tend to outperform classical methods when applied to HDLSS data structures. Since the success of clustering algorithms depends not only on methodological adequacy but also on the inherent characteristics of the dataset, the evaluation of clustering performance considered critical factors such as high dimensionality, sample size, the presence of outliers, and contamination levels.

Benzer Tezler

  1. Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity

    Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini

    AMMAR HOMAIDA

    Doktora

    İngilizce

    İngilizce

    2025

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MERAL EBEGİL

  2. Filament beslemeli 3 boyutlu yazıcılarda imalat parametrelerinin optimizasyonu

    Optimization of manufacturing parameters in FDM 3D printers

    ONUR HIRA

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ATAKAN ALTINKAYNAK

  3. Examination and mathematical modelling of shrinkage rate of uniform droplets in a microfluidic system designed for biopreservation

    Biyosaklama amacıyla tasarlanan mikroakışkan düzenekte eşboyutlu sulu damlacıkların küçülme hızının incelenmesi ve matematiksel modellenmesi

    UFUK OKUMUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilim ve TeknolojiHacettepe Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SELİS ÖNEL

  4. Estimating forest parameters using point cloud data

    Orman parametrelerinin nokta bulutu verilerinden çıkarımı

    ADİL ENİS ARSLAN

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ESRA ERTEN

  5. Functional chocolate development: Enrichment of dark chocolate with nano-liposome encapsulated antioxidants, and/or pro- and pre-biotics, bioavailability studies

    Fonksiyonel çikolata geliştirilmesi: Bitter çikolatanın nano-lipozomla enkapsüle edilen antioksidanlarla, ve/veya pro- ve pre-biyotiklerle zenginleştirilmesi, biyoyararlılık çalışmaları

    MİNE ÖZGÜVEN

    Doktora

    İngilizce

    İngilizce

    2014

    Gıda Mühendisliğiİstanbul Teknik Üniversitesi

    Gıda Mühendisliği Ana Bilim Dalı

    PROF. DR. BERAAT ÖZÇELİK