Geri Dön

Kümeleme analizinde küme sayısının belirlenmesi üzerine bir çalışma

A study on determining the number of clusters in cluster analysis

  1. Tez No: 233366
  2. Yazar: AZİZE CELİLE GÜNAY ATBAŞ
  3. Danışmanlar: YRD. DOÇ. DR. CEMAL ATAKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Kümeleme Analizinde amaç; ele alınan özellikleri bakımından birbirine benzer olan birimleri saptayarak kümelenme yapılarını oluşturmaktır. Ancak Kümeleme Analizinde küme sayısı önceden bilinmez ve bu bilinmezlik kümeleme analizinin en tartışmalı konusu olmuştur. Bu çalışmada kümeleme analizi bu yönüyle ele alınmaya çalışılmıştır. Çalışmada kümeleme yöntemlerinden tek bağlantı yöntemi, tam bağlantı yöntemi , Ward yöntemi, k-Ortalama yöntemi kullanılmıştır. Uzaklık ölçüsü olarak öklid uzaklığı ve karesel öklid uzaklığı kullanılmıştır. Uygulama bölümünde Türkiye'de 81 ilde işlenen 11 farklı suç türüne göre ceza evine giren hükümlü sayıları illerin nüfuslarına oranlanmıştır. Adam öldürme, cinsel suçlar, kişiyi hürriyetinden yoksun bırakma, hırsızlık, gasp, dolandırıcılık, uyuşturucu, sahtecilik, zimmet, kaçakçılık, orman suçlarından 2006 yılında ceza evine giren hükümlü sayıları TÜİK resmi internet sayfasından adalet istatistikleri bölümünden alınmıştır. 4 kümeleme yöntemiyle(tek bağlantı, tam bağlantı, Ward ve k-ortalama) iller bu suç türlerine göre kümelenmiştir. Çalışmada, Van ilinin tek başına bir küme olması kaçakçılık suçundan cezaevine giren hükümlü sayısının diğer illere oranla fark edilebilir oranda fazla olmasından kaynaklanabildiği sonucuna varılmıştır. Ankara, Antalya, Bursa, Denizli, Gaziantep, İstanbul, İzmir, Kayseri ve Konya gibi büyük illerin kendi aralarında küme oluşturmalarının da dikkat çekici olduğu gözlenmiştir. Kümeleme yöntemlerinden tek bağlantı, tam bağlantı yöntemleri 81 ili suç türlerine göre 5 kümeye ayırırken, Ward yöntemi ve k-ortalama yöntemi illeri 7 kümeye ayırmıştır. Oluşan kümelemenin kalitesi Küme geçerliliği indekslerinden Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi ve Wilk's Lambda istatistiği ile değerlendirilmiştir. Bu indekslerden Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksleri tek bağlantı, tam bağlantı yöntemleri ile illeri 5 kümeye, Ward yöntemi ve k-ortalama yöntemi ile 7 kümeye ayırmanın kaliteli kümeleme olduğunu göstermiştir. Wilk's Lambda istatistiği ile iller, tek bağlantı yöntemine göre 10 kümeye, tam bağlantı yöntemine göre 7 kümeye, Ward yöntemi ve k-ortalama yöntemine göre 8 kümeye ayrılmıştır. Oluşan kümeler incelendiğinde, Ward yönteminin diğer yöntemlere göre daha anlamlı küme yapısı ortaya çıkardığı gözlenmiştir.

Özet (Çeviri)

The purpose of Cluster Analysis is to determine the units similar to each other in terms of their characteristics studied, and to define their clustering structures. However, in Cluster Analysis the number of clusters is not known beforehand and this uncertainty is the most controversial issue of the Cluster Analysis. In this study, cluster analysis has been taken up considering this issue. In the study, clustering methods including single link, complete link, Ward?s method and k-mean have been used. Euclidian distance and squared Euclidian distance have been used as the measure of distance. In the practical part, prisoners sentenced for 11 different types of crime in 81 provinces of Turkey have been compared to the populations of these provinces. Numbers of prisoners sentenced in 2006 for homicide, sexual offences, deprivation of personal freedom, theft, usurpation, fraud, drug abuse, forgery, embezzlement, smuggling and forest crimes have been taken from the justice statistics of the Turkish Statistical Institute published in their official web page. Using the 4 clustering methods the provinces have been clustered by the foregoing types of crime. It has been concluded that the situation of the province of Van which made a cluster by itself can stem from the fact that the number of persons imprisoned in this province for smuggling is distinguishably higher when compared to other provinces. It has also been observed that big provinces like Ankara, Antalya, Bursa, Denizli, Gaziantep, Istanbul, Izmir, Kayseri and Konya notably make up a cluster between themselves. Single link and complete link clustering methods have divided the 81 provinces into 5 clusters by types of crime, while Ward?s method and k-mean divided them into 7. The quality of this clusterization has been assessed using cluster validity indices including Silhoutte index, Calinski and Harabasz index, Krzanowski and Lai index, and Wilks? Lambda statistics. Silhoutte index, Calinski and Harabasz index, and Krzanowski and Lai index have shown that dividing the provinces into 5 clusters using single link and complete link methods, and dividing the same into 7 clusters using Ward?s method and k-mean method are qualified clusterings. It has been concluded that with Wilks? Lambda statistics it would be much more acceptable to divide the provinces into 10 clusters using single link method; into 7 using complete link method, and into 8 using Wards? method and k-mean. It has been observed that Ward?s method is the best method.

Benzer Tezler

  1. Mr görüntülerinin bölütlenmesinde çok kriterli yaklaşımlar üzerine bir çalışma

    A study on multiobjective approaches to mr image segmentation

    NECATİ DURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA SERDAR KORUKOĞLU

  2. Implementation of some medical data in Apriori algorithm

    Apriori algoritmasının bazı tıbbı verilere uygulanması

    FAWAD SADIQMAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NILÜFER YURTAY

  3. Kümeleme analizi, kümeleme analizine matematiksel programlama yaklaşımı ve bir uygulama

    Başlık çevirisi yok

    İSMAİL YILDIZ

    Doktora

    Türkçe

    Türkçe

    1998

    ZiraatHarran Üniversitesi

    Zootekni Ana Bilim Dalı

    YRD. DOÇ. DR. RAHMİ KANAT

  4. Multivariate and fuzzy clustering approaches to dynamic classification of traffic flow states

    Çok değişkenli ve bulanık yaklaşımlarla trafik akımının dinamik sınıflandırılması

    MEHMET ALİ SİLGU

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Trafikİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. HİLMİ BERK ÇELİKOĞLU

  5. K-ortalamalar algoritmasına dayalı kümeleme analizi sistemi ve perakendecilik sektöründe uygulaması

    Clustering analysis system based on K-means algorithm and its application in the retail sector

    MERVE ÜSTÜNEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYLA ŞAYLI