Kümeleme analizinde kullanılan bazı benzerlik indekslerinin karşılaştırılması

Comparison of similarity indices in cluster analysis

PDF İndir

Tez No: 441826
Yazar: HAZAN KÜBRA HACIOĞLU
Danışmanlar: PROF. DR. SEMRA ERBAŞ
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 98

Özet

Araştırmacılar veri seti hakkında çıkarsama yapabilmek için, birçok çalışmada homojen ve uygun sayıda gruba ihtiyaç duyarlar. Kümeleme analizi, veri setinin altında yatan doğal grupları ortaya koyan ve birçok alanda yaygın olarak kullanılan çok değişkenli istatistiksel bir yöntemdir. Kümeleme analizinde, anlamlı ve geçerli sonuçlara ulaşmada uygun küme sayısının belirlenmesi birçok araştırmacının sıklıkla karşılaştığı önemli sorunlardan biridir. Kümeleme kalitesinin değerlendirilmesinde ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Ancak bazı karmaşık yapılar içeren verilerde, küme üyeliklerindeki kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bu çalışmada, en uygun küme sayısının belirlenmesinde kullanılan küme geçerlilik indeksleri tanıtılarak, R ortamında elde edilen yapay veri setleri ile karşılaştırılmıştır. Ayrıca İstatistiki Bölge Birimleri Sınıflandırması (İBBS) Düzey 2 bölgelerinin kadın işgücü ve eğitim istatistikleri kullanılarak bir uygulama çalışması sunulmuştur. Analiz sonuçlarına göre Silhouette indeksinin küme geçerliliği değerlendirilmesinde kullanılan geçerlilik indekslerinden daha başarılı sonuçlar verdiği saptanmıştır.

Özet (Çeviri)

Researchers are in need of homogeneous and optimal number of groups in order to make inference about data set. Cluster analysis is a commonly used multivariate statistical method in many fields which reveal natural groups underlying data sets. Determining the optimal number of cluster is an important problem while obtaining efficient and valid results in the cluster analysis. Cluster validity indices are used in the evaluation of the quality of the clustering and determining optimal number of cluster. But, when the complex data are being analysed, cluster analysis results can give conflicting results. In this study, the performances of validity indices which is used to determine the optimal number of clusters are introduced and compared to each other via artificial data set obtained in R programming. In addition, this experimental study has studied Classification of Statistical Regional Units Level-2 regions in Turkey through women labour and training statistics. According to the analysis results, it was obtained that Silhouette index is more successful than the cluster validity indices which are used in clustering validation.

Benzer Tezler

Tez No
264481
Link analizi ve bir iletişim şebekesi uygulaması
Link analysis and a communication network application
FATMA ŞEBNEM AKAL
Doktora
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
İşletme Bölümü
DOÇ. DR. MEHPARE TİMOR
PROF. DR. HALDUN AKPINAR
Tez No
315863
Bazı taze fasulye (Phaseolus vulgaris L.) genotiplerinin morfolojik ve moleküler karakterizasyonu
Morphological and molecular characterisation of some green bean (Phaseolus vulgaris L.) genotypes
RABİA IŞIK
Yüksek Lisans
Türkçe
2012
Ziraat Selçuk Üniversitesi
Bahçe Bitkileri Ana Bilim Dalı
PROF. DR. ÖNDER TÜRKMEN
DOÇ. DR. ERDOĞAN EŞREF HAKKI
Tez No
528910
Türkiye'de tescillenmiş bazı ticari pamuk çeşitlerinin moleküler karakterizasyonu üzerine bir araştırma
A study on the molecular characterization of some commercial cotton varieties registered in Turkey
ADNAN AYDIN
Doktora
Türkçe
2018
Biyoteknoloji Akdeniz Üniversitesi
Tarla Bitkileri Ana Bilim Dalı
PROF. DR. MEHMET KARACA
Tez No
19761
Sağlık hizmetlerinin Türkiye'deki dağılımının faktör analizi ve bilgisayar yardımıyla çözümlenmesi
Başlık çevirisi yok
NİHAL RAKICI(YELKENKAYA)
Doktora
Türkçe
1992
Sosyal Hizmetler İstanbul Üniversitesi
PROF.DR. ÖNER ESEN
Tez No
48118
Çok değişkenli analizlerde kullanılan uzaklık ve benzerlik ölçütlerinin kullanım yerleri üzerine uygulamalı bir çalışma
Distance and similarity measures wich were used and applicatedin multivariate analysis
HARUN FATİH TOMBAK
Yüksek Lisans
Türkçe
1996
İstatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
DOÇ.DR. REHA ALPAR

Geri Dön