Geri Dön

Determining the optimal number of clusters in clustering analysis: adjusted silhouette coefficient based on median

Kümeleme analizinde optimal küme sayısının belirlenmesi: medyana göre düzeltilmiş silüet katsayısı

  1. Tez No: 818604
  2. Yazar: FATİH EMRE ÖZTÜRK
  3. Danışmanlar: PROF. DR. NESLİHAN DEMİREL
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Kümeleme, gözlemleri benzerliklerine göre gruplara ayıran denetimsiz bir öğrenmedir. En yaygın kullanılan kümeleme algoritması k-ortalamalardır. Ancak bu kümeleme algoritmasında küme sayısının önceden belirlenmesi gerekmektedir. Optimal küme sayısını belirlemek için bazı yöntemler vardır. En yaygın kullanılan yöntemler bazı durumlarda başarısız olur. Bu tezde, optimum küme sayısını belirlemek için alternatif bir yöntem olarak Medyana Dayalı Düzeltilmiş Siluet Katsayı yöntemini önerilmiştir. Yöntemin başarısı, hem simüle edilmiş hem de gerçek veri setlerinde Ortalama Silüet, Calinski-Harabasz ve Davies-Bouldin yöntemleri ile karşılaştırılmıştır. Yöntemler, küme doğrulama metrikleri (Başarı Oranı, Yakınlık Oranı, Rand Endeksi ve Meila'nın Bilgi Varyasyonu) ile karşılaştırılmıştır. Medyana Dayalı Düzeltilmiş Silüet Katsayısı, tüm metrikler ve çalışmalarda en başarılı yöntem olarak saptanmıştır.

Özet (Çeviri)

Clustering is an unsupervised learning that divides observations into groups based on their similarity. The most widely used clustering algorithm is k-means. However, in this clustering algorithm, the number of clusters needs to be determined in advanced. There are some methods to determine the optimal number of clusters. The most widely used methods fails in some specific situations. In this thesis, we propose Adjusted Silhouette Based Coefficient Based on Median as an alternative method to determine the optimal number of clusters. Success of the method is compared with Average Silhouette, Calinski-Harabasz, and Davies-Bouldin both on simulated and benchmark data sets. Methods were compared with cluster validation metrics (Success Rate, Affinity Rate, Rand Index, and Meila's Variation of Information). Adjusted Silhouette Coefficient Based on Median is the most successful method of all metrics and studies.

Benzer Tezler

  1. Kümeleme analizinde yapay sinir ağlarının küme geçerlilik indeksi olarak kullanılması

    Using artificial neural network as a validity index in clustering analysis

    HATİCE MALKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    EkonometriCumhuriyet Üniversitesi

    Ekonometri Ana Bilim Dalı

    DOÇ. DR. NECATİ ALP ERİLLİ

  2. Kümeleme analizinde kullanılan bazı benzerlik indekslerinin karşılaştırılması

    Comparison of similarity indices in cluster analysis

    HAZAN KÜBRA HACIOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SEMRA ERBAŞ

  3. Türkiye'de illerin 2002-2008-2013-2018 yılları sosyo ekonomik verileri yardımıyla bulanık kümeleme analizi yöntemlerinin karşılaştırılması

    Comparison of fuzzy clustering analysis methods with socio-economic data of provinces in Turkey 2002-2008-2013-2018

    OKAN ÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    EkonometriSivas Cumhuriyet Üniversitesi

    Ekonometri Ana Bilim Dalı

    DOÇ. DR. NECATİ ALP ERİLLİ

  4. Developing regional electricity pricing by clustering methods, considering production, consumption and population: The case of Turkey

    Bölgesel elektrik fiyatlandırmasının bölgesel üretim, tüketim ve nüfusu dikkate alarak kümelenme yöntemleriyle geliştirilmesi: Türkiye örneği

    SALMAN HASAN ABDULHALEEM AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA BAYSAL

  5. K-ortalamalar algoritmasına dayalı kümeleme analizi sistemi ve perakendecilik sektöründe uygulaması

    Clustering analysis system based on K-means algorithm and its application in the retail sector

    MERVE ÜSTÜNEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYLA ŞAYLI