Geri Dön

Kümeleme analizinde yapay sinir ağlarının küme geçerlilik indeksi olarak kullanılması

Using artificial neural network as a validity index in clustering analysis

  1. Tez No: 503483
  2. Yazar: HATİCE MALKOÇ
  3. Danışmanlar: DOÇ. DR. NECATİ ALP ERİLLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Ekonometri, Econometrics
  6. Anahtar Kelimeler: Kümeleme Analizi, Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi, Wilk's Lambda istatistiği, YSA, Clustering Analysis, Silhouette Index, Calinski Harabasz Index, Krzanowski Lai Index, Wilk's Lambda Statistic, ANN
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Cumhuriyet Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Kümeleme Analizinde amaç; grupları kesin olarak bilinmeyen, birimleri, değişkenleri birbiriyle benzer alt kümeleri (grup, sınıf) saptayarak kümeleme yapılarını oluşturmaktır. Kümeleme Analizinde sağlıklı sonuçlara ulaşabilmek için en uygun küme sayısının belirlenmesi önemlidir. Fakat Kümeleme Analizinde anlamlı ve geçerli sonuçlara ulaşmada ve uygun küme sayısının önceden belirlenmesi kümeleme analizinin tartışmalı konusu olmuştur. Kümeleme kalitesinin ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Fakat bazı karmaşık yapılar içeren verilerde, küme sayılarında kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bunun yanı sıra hangi indeksin en uygun küme sayısını belirlediğini ortaya koyan bir ölçütte bulunmamaktadır. Bu çalışmada en uygun küme sayısı belirlenmede; Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi ve Wilk's Lambda istatistiği ile Yapay Sinir Ağları'ndan elde edilen değerler karşılaştırılarak en uygun küme sayısı hakkında karar verilmeye çalışılmıştır. Uygulamada; TR72 bölgesinde bulunan Kayseri, Sivas ve Yozgat'a bağlı 46 ilçe, 15 değişkene göre kümeleme analizi ile sınıflandırılmıştır. Değişkenler; nüfus, ortalama hane halkı büyüklüğü, işsizlik oranı, şehirleşme oranı, tarım sektöründe çalışanların oranı, okur yazar oranı, nüfus artış hızı, sanayi sektöründe çalışanların oranı, bebek ölüm oranı, nüfus yoğunluğu, hizmet sektöründe çalışma oranı, fert başına genel bütçe geliri, nüfus bağlılık oranı, tarımsal üretimin ülke içindeki payı ve vergi gelirlerinin ülke içindeki payı 22.09.2002 tarihinde Türkiye İstatistik Kurumu ve Devlet Planlama Teşkilatı tarafından İstatistikî Bölge Birimleri Sınıflandırması (İBBS) Düzey 2'de hazırlanan verilerden alınmıştır. Analiz sonuçlarına göre, Silhouette indeksi 3 kümeye, Calinski Harabasz indeksi 4 kümeye, Krzanowski Lai indeksi 3 kümeye ve Wilk's Lambda istatistiği ise 4 kümeye ayırmıştır. Yapay Sinir Ağları ile de 4 kümeye ayrılmıştır. Oluşan kümeler incelendiğinde Calinski Harabasz indeksi ve Wilk's Lambda istatistiği ile YSA'nın daha başarılı sonuçlar verdiği belirlenmiştir. Bu sonuçlara göre YSA'nın da uygun küme sayısının belirlenmesinde küme geçerlilik teknikleri arasında kullanılabileceği gözlenmektedir.

Özet (Çeviri)

The purpose of clustering analysis is to create clustering structures by detecting sub-sets (group, class) similar to each other when groups are not exactly known. Clustering Analysis in order to achieve healthy results it is important to determine the optimal number of clusters. But it is hard to say for the appropriate number of clusters because of complicated data structures. Cluster validity indices are used when determining the clustering quality and the number of clusters. But some complex structures in the data set that contains instability due to the number of valid indexes a set of conflicting results. Besides this, there is no criterion which indicates which index determines the most suitable cluster number. In this study, it is used Artificial Neural Networks to determine the best cluster number. Also other well-known indices Silhouette index, Calinski Harabasz index, Krzanowski Lai index and Wilk's Lambda statistic are used to compare with proposed method. In analysis TR72 socio-economic data is used.46 districts of Kayseri, Sivas and Yozgat in TR72 region were classified by clustering analysis according to 15 variables. Variables; population, average household size, unemployment rate, urbanization rate, the proportion of employees in the agricultural sector, literacy rate, the rate of population growth, the proportion of workers in the industrial sector, the infant mortality rate, the population density, working rate in service sector, the general budget revenue per person, the population dependency ratio, the share of agricultural production within the country, and the share of tax revenues in the country. Data are taken by Turkey Statistics Institution. According to the results of analysis, Silhouette index shown 4 cluster, Calinski-Harabasz index shown 3 cluster, Krzanowski Lai index shown 3 and Wilk's Lambda statistic shown 4 clusters. Proposed method Artificial Neural Networks is also divided data into 4 clusters. When the resulting clusters were examined, Calinski Harabasz index and Wilk's Lambda statistic and ANN determined that it gave more successful results. According to these results, it can be seen that ANN can be used as cluster validity techniques in determining the appropriate number of sets.

Benzer Tezler

  1. Tüketici tercihlerinin yapay sinir ağları yöntemiyle tahmini: Perakende sektöründe bir uygulama

    Prediction of consumer preferences by artificial neural networks method: An application in the retail sector

    BAHAR ÇELİK

    Doktora

    Türkçe

    Türkçe

    2019

    İşletmeManisa Celal Bayar Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. PINAR AYTEKİN

  2. Çevresel koşulların sığırlarda süt verimi üzerine etkisinin makine öğrenme modelleri ile araştırılması

    Evaluation of the impact of environmental conditions on dairy cattle milk yield using machine learning algorithms

    HAKAN DUMAN

    Doktora

    Türkçe

    Türkçe

    2023

    BiyoistatistikIğdır Üniversitesi

    Tarım Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET KAZIM KARA

    DR. ÖĞR. ÜYESİ ONUR ŞAHİN

  3. Data driven optimization and applications in complex real-life problems

    Veri güdümlü optimizasyon ve kompleks gerçek hayat problemlerinde uygulamaları

    NURULLAH GÜLEÇ

    Doktora

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR KABAK

  4. A psychological assessment model on the commercial maritime transport sector

    Ticari deniz taşımacılığı sektörüne ilişkin bir psikolojik değerlendirme modeli

    CENK AY

    Doktora

    İngilizce

    İngilizce

    2024

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ELİF BAL BEŞİKÇİ

  5. Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama

    Self organised signal pattern encoding by wavelet transform method

    MERİÇ YÜCEL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

    PROF. DR. BURAK BERK ÜSTÜNDAĞ