Geri Dön

Kümeleme analizinde kullanılan bazı benzerlik indekslerinin karşılaştırılması

Comparison of similarity indices in cluster analysis

  1. Tez No: 441826
  2. Yazar: HAZAN KÜBRA HACIOĞLU
  3. Danışmanlar: PROF. DR. SEMRA ERBAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Araştırmacılar veri seti hakkında çıkarsama yapabilmek için, birçok çalışmada homojen ve uygun sayıda gruba ihtiyaç duyarlar. Kümeleme analizi, veri setinin altında yatan doğal grupları ortaya koyan ve birçok alanda yaygın olarak kullanılan çok değişkenli istatistiksel bir yöntemdir. Kümeleme analizinde, anlamlı ve geçerli sonuçlara ulaşmada uygun küme sayısının belirlenmesi birçok araştırmacının sıklıkla karşılaştığı önemli sorunlardan biridir. Kümeleme kalitesinin değerlendirilmesinde ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Ancak bazı karmaşık yapılar içeren verilerde, küme üyeliklerindeki kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bu çalışmada, en uygun küme sayısının belirlenmesinde kullanılan küme geçerlilik indeksleri tanıtılarak, R ortamında elde edilen yapay veri setleri ile karşılaştırılmıştır. Ayrıca İstatistiki Bölge Birimleri Sınıflandırması (İBBS) Düzey 2 bölgelerinin kadın işgücü ve eğitim istatistikleri kullanılarak bir uygulama çalışması sunulmuştur. Analiz sonuçlarına göre Silhouette indeksinin küme geçerliliği değerlendirilmesinde kullanılan geçerlilik indekslerinden daha başarılı sonuçlar verdiği saptanmıştır.

Özet (Çeviri)

Researchers are in need of homogeneous and optimal number of groups in order to make inference about data set. Cluster analysis is a commonly used multivariate statistical method in many fields which reveal natural groups underlying data sets. Determining the optimal number of cluster is an important problem while obtaining efficient and valid results in the cluster analysis. Cluster validity indices are used in the evaluation of the quality of the clustering and determining optimal number of cluster. But, when the complex data are being analysed, cluster analysis results can give conflicting results. In this study, the performances of validity indices which is used to determine the optimal number of clusters are introduced and compared to each other via artificial data set obtained in R programming. In addition, this experimental study has studied Classification of Statistical Regional Units Level-2 regions in Turkey through women labour and training statistics. According to the analysis results, it was obtained that Silhouette index is more successful than the cluster validity indices which are used in clustering validation.

Benzer Tezler

  1. Link analizi ve bir iletişim şebekesi uygulaması

    Link analysis and a communication network application

    FATMA ŞEBNEM AKAL

    Doktora

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    İşletme Bölümü

    DOÇ. DR. MEHPARE TİMOR

    PROF. DR. HALDUN AKPINAR

  2. Bazı taze fasulye (Phaseolus vulgaris L.) genotiplerinin morfolojik ve moleküler karakterizasyonu

    Morphological and molecular characterisation of some green bean (Phaseolus vulgaris L.) genotypes

    RABİA IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    ZiraatSelçuk Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    PROF. DR. ÖNDER TÜRKMEN

    DOÇ. DR. ERDOĞAN EŞREF HAKKI

  3. Türkiye'de tescillenmiş bazı ticari pamuk çeşitlerinin moleküler karakterizasyonu üzerine bir araştırma

    A study on the molecular characterization of some commercial cotton varieties registered in Turkey

    ADNAN AYDIN

    Doktora

    Türkçe

    Türkçe

    2018

    BiyoteknolojiAkdeniz Üniversitesi

    Tarla Bitkileri Ana Bilim Dalı

    PROF. DR. MEHMET KARACA

  4. Çok değişkenli analizlerde kullanılan uzaklık ve benzerlik ölçütlerinin kullanım yerleri üzerine uygulamalı bir çalışma

    Distance and similarity measures wich were used and applicatedin multivariate analysis

    HARUN FATİH TOMBAK

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    İstatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ.DR. REHA ALPAR