Determining the optimal number of clusters in clustering analysis: adjusted silhouette coefficient based on median
Kümeleme analizinde optimal küme sayısının belirlenmesi: medyana göre düzeltilmiş silüet katsayısı
- Tez No: 818604
- Danışmanlar: PROF. DR. NESLİHAN DEMİREL
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 71
Özet
Kümeleme, gözlemleri benzerliklerine göre gruplara ayıran denetimsiz bir öğrenmedir. En yaygın kullanılan kümeleme algoritması k-ortalamalardır. Ancak bu kümeleme algoritmasında küme sayısının önceden belirlenmesi gerekmektedir. Optimal küme sayısını belirlemek için bazı yöntemler vardır. En yaygın kullanılan yöntemler bazı durumlarda başarısız olur. Bu tezde, optimum küme sayısını belirlemek için alternatif bir yöntem olarak Medyana Dayalı Düzeltilmiş Siluet Katsayı yöntemini önerilmiştir. Yöntemin başarısı, hem simüle edilmiş hem de gerçek veri setlerinde Ortalama Silüet, Calinski-Harabasz ve Davies-Bouldin yöntemleri ile karşılaştırılmıştır. Yöntemler, küme doğrulama metrikleri (Başarı Oranı, Yakınlık Oranı, Rand Endeksi ve Meila'nın Bilgi Varyasyonu) ile karşılaştırılmıştır. Medyana Dayalı Düzeltilmiş Silüet Katsayısı, tüm metrikler ve çalışmalarda en başarılı yöntem olarak saptanmıştır.
Özet (Çeviri)
Clustering is an unsupervised learning that divides observations into groups based on their similarity. The most widely used clustering algorithm is k-means. However, in this clustering algorithm, the number of clusters needs to be determined in advanced. There are some methods to determine the optimal number of clusters. The most widely used methods fails in some specific situations. In this thesis, we propose Adjusted Silhouette Based Coefficient Based on Median as an alternative method to determine the optimal number of clusters. Success of the method is compared with Average Silhouette, Calinski-Harabasz, and Davies-Bouldin both on simulated and benchmark data sets. Methods were compared with cluster validation metrics (Success Rate, Affinity Rate, Rand Index, and Meila's Variation of Information). Adjusted Silhouette Coefficient Based on Median is the most successful method of all metrics and studies.
Benzer Tezler
- Kümeleme analizinde yapay sinir ağlarının küme geçerlilik indeksi olarak kullanılması
Using artificial neural network as a validity index in clustering analysis
HATİCE MALKOÇ
Yüksek Lisans
Türkçe
2018
EkonometriCumhuriyet ÜniversitesiEkonometri Ana Bilim Dalı
DOÇ. DR. NECATİ ALP ERİLLİ
- Kümeleme analizinde kullanılan bazı benzerlik indekslerinin karşılaştırılması
Comparison of similarity indices in cluster analysis
HAZAN KÜBRA HACIOĞLU
- Türkiye'de illerin 2002-2008-2013-2018 yılları sosyo ekonomik verileri yardımıyla bulanık kümeleme analizi yöntemlerinin karşılaştırılması
Comparison of fuzzy clustering analysis methods with socio-economic data of provinces in Turkey 2002-2008-2013-2018
OKAN ÇELİK
Yüksek Lisans
Türkçe
2021
EkonometriSivas Cumhuriyet ÜniversitesiEkonometri Ana Bilim Dalı
DOÇ. DR. NECATİ ALP ERİLLİ
- Developing regional electricity pricing by clustering methods, considering production, consumption and population: The case of Turkey
Bölgesel elektrik fiyatlandırmasının bölgesel üretim, tüketim ve nüfusu dikkate alarak kümelenme yöntemleriyle geliştirilmesi: Türkiye örneği
SALMAN HASAN ABDULHALEEM AL-RAWE
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA BAYSAL
- K-ortalamalar algoritmasına dayalı kümeleme analizi sistemi ve perakendecilik sektöründe uygulaması
Clustering analysis system based on K-means algorithm and its application in the retail sector
MERVE ÜSTÜNEL
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. AYLA ŞAYLI