Kümeleme analizinde yapay sinir ağlarının küme geçerlilik indeksi olarak kullanılması

Using artificial neural network as a validity index in clustering analysis

PDF İndir

Tez No: 503483
Yazar: HATİCE MALKOÇ
Danışmanlar: DOÇ. DR. NECATİ ALP ERİLLİ
Tez Türü: Yüksek Lisans
Konular: Ekonometri, Econometrics
Anahtar Kelimeler: Kümeleme Analizi, Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi, Wilk's Lambda istatistiği, YSA, Clustering Analysis, Silhouette Index, Calinski Harabasz Index, Krzanowski Lai Index, Wilk's Lambda Statistic, ANN
Yıl: 2018
Dil: Türkçe
Üniversite: Cumhuriyet Üniversitesi
Enstitü: Sosyal Bilimler Enstitüsü
Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 77

Özet

Kümeleme Analizinde amaç; grupları kesin olarak bilinmeyen, birimleri, değişkenleri birbiriyle benzer alt kümeleri (grup, sınıf) saptayarak kümeleme yapılarını oluşturmaktır. Kümeleme Analizinde sağlıklı sonuçlara ulaşabilmek için en uygun küme sayısının belirlenmesi önemlidir. Fakat Kümeleme Analizinde anlamlı ve geçerli sonuçlara ulaşmada ve uygun küme sayısının önceden belirlenmesi kümeleme analizinin tartışmalı konusu olmuştur. Kümeleme kalitesinin ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Fakat bazı karmaşık yapılar içeren verilerde, küme sayılarında kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bunun yanı sıra hangi indeksin en uygun küme sayısını belirlediğini ortaya koyan bir ölçütte bulunmamaktadır. Bu çalışmada en uygun küme sayısı belirlenmede; Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi ve Wilk's Lambda istatistiği ile Yapay Sinir Ağları'ndan elde edilen değerler karşılaştırılarak en uygun küme sayısı hakkında karar verilmeye çalışılmıştır. Uygulamada; TR72 bölgesinde bulunan Kayseri, Sivas ve Yozgat'a bağlı 46 ilçe, 15 değişkene göre kümeleme analizi ile sınıflandırılmıştır. Değişkenler; nüfus, ortalama hane halkı büyüklüğü, işsizlik oranı, şehirleşme oranı, tarım sektöründe çalışanların oranı, okur yazar oranı, nüfus artış hızı, sanayi sektöründe çalışanların oranı, bebek ölüm oranı, nüfus yoğunluğu, hizmet sektöründe çalışma oranı, fert başına genel bütçe geliri, nüfus bağlılık oranı, tarımsal üretimin ülke içindeki payı ve vergi gelirlerinin ülke içindeki payı 22.09.2002 tarihinde Türkiye İstatistik Kurumu ve Devlet Planlama Teşkilatı tarafından İstatistikî Bölge Birimleri Sınıflandırması (İBBS) Düzey 2'de hazırlanan verilerden alınmıştır. Analiz sonuçlarına göre, Silhouette indeksi 3 kümeye, Calinski Harabasz indeksi 4 kümeye, Krzanowski Lai indeksi 3 kümeye ve Wilk's Lambda istatistiği ise 4 kümeye ayırmıştır. Yapay Sinir Ağları ile de 4 kümeye ayrılmıştır. Oluşan kümeler incelendiğinde Calinski Harabasz indeksi ve Wilk's Lambda istatistiği ile YSA'nın daha başarılı sonuçlar verdiği belirlenmiştir. Bu sonuçlara göre YSA'nın da uygun küme sayısının belirlenmesinde küme geçerlilik teknikleri arasında kullanılabileceği gözlenmektedir.

Özet (Çeviri)

The purpose of clustering analysis is to create clustering structures by detecting sub-sets (group, class) similar to each other when groups are not exactly known. Clustering Analysis in order to achieve healthy results it is important to determine the optimal number of clusters. But it is hard to say for the appropriate number of clusters because of complicated data structures. Cluster validity indices are used when determining the clustering quality and the number of clusters. But some complex structures in the data set that contains instability due to the number of valid indexes a set of conflicting results. Besides this, there is no criterion which indicates which index determines the most suitable cluster number. In this study, it is used Artificial Neural Networks to determine the best cluster number. Also other well-known indices Silhouette index, Calinski Harabasz index, Krzanowski Lai index and Wilk's Lambda statistic are used to compare with proposed method. In analysis TR72 socio-economic data is used.46 districts of Kayseri, Sivas and Yozgat in TR72 region were classified by clustering analysis according to 15 variables. Variables; population, average household size, unemployment rate, urbanization rate, the proportion of employees in the agricultural sector, literacy rate, the rate of population growth, the proportion of workers in the industrial sector, the infant mortality rate, the population density, working rate in service sector, the general budget revenue per person, the population dependency ratio, the share of agricultural production within the country, and the share of tax revenues in the country. Data are taken by Turkey Statistics Institution. According to the results of analysis, Silhouette index shown 4 cluster, Calinski-Harabasz index shown 3 cluster, Krzanowski Lai index shown 3 and Wilk's Lambda statistic shown 4 clusters. Proposed method Artificial Neural Networks is also divided data into 4 clusters. When the resulting clusters were examined, Calinski Harabasz index and Wilk's Lambda statistic and ANN determined that it gave more successful results. According to these results, it can be seen that ANN can be used as cluster validity techniques in determining the appropriate number of sets.

Benzer Tezler

Tez No
580822
Tüketici tercihlerinin yapay sinir ağları yöntemiyle tahmini: Perakende sektöründe bir uygulama
Prediction of consumer preferences by artificial neural networks method: An application in the retail sector
BAHAR ÇELİK
Doktora
Türkçe
2019
İşletme Manisa Celal Bayar Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. PINAR AYTEKİN
Tez No
854874
A psychological assessment model on the commercial maritime transport sector
Ticari deniz taşımacılığı sektörüne ilişkin bir psikolojik değerlendirme modeli
CENK AY
Doktora
İngilizce
2024
Denizcilik İstanbul Teknik Üniversitesi
Deniz Ulaştırma Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ELİF BAL BEŞİKÇİ
Tez No
877461
Data driven optimization and applications in complex real-life problems
Veri güdümlü optimizasyon ve kompleks gerçek hayat problemlerinde uygulamaları
NURULLAH GÜLEÇ
Doktora
İngilizce
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR KABAK
Tez No
837536
Çevresel koşulların sığırlarda süt verimi üzerine etkisinin makine öğrenme modelleri ile araştırılması
Evaluation of the impact of environmental conditions on dairy cattle milk yield using machine learning algorithms
HAKAN DUMAN
Doktora
Türkçe
2023
Biyoistatistik Iğdır Üniversitesi
Tarım Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET KAZIM KARA
DR. ÖĞR. ÜYESİ ONUR ŞAHİN
Tez No
412167
Bölgesel kalkınma ajanslarının yeniliklere katkıları: Teori, deneyimler ve Türkiye uygulamalarının değerlendirilmesi
Contributions to innovations of the regional development agencies: Theory, experiences and evaluation of Turkey practices
FATİH ÇELİK
Doktora
Türkçe
2015
Ekonomi Erciyes Üniversitesi
İktisat Ana Bilim Dalı
PROF. DR. RIFAT YILDIZ

Geri Dön