Kümeleme analizinde yapay sinir ağlarının küme geçerlilik indeksi olarak kullanılması
Using artificial neural network as a validity index in clustering analysis
- Tez No: 503483
- Danışmanlar: DOÇ. DR. NECATİ ALP ERİLLİ
- Tez Türü: Yüksek Lisans
- Konular: Ekonometri, Econometrics
- Anahtar Kelimeler: Kümeleme Analizi, Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi, Wilk's Lambda istatistiği, YSA, Clustering Analysis, Silhouette Index, Calinski Harabasz Index, Krzanowski Lai Index, Wilk's Lambda Statistic, ANN
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Cumhuriyet Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 77
Özet
Kümeleme Analizinde amaç; grupları kesin olarak bilinmeyen, birimleri, değişkenleri birbiriyle benzer alt kümeleri (grup, sınıf) saptayarak kümeleme yapılarını oluşturmaktır. Kümeleme Analizinde sağlıklı sonuçlara ulaşabilmek için en uygun küme sayısının belirlenmesi önemlidir. Fakat Kümeleme Analizinde anlamlı ve geçerli sonuçlara ulaşmada ve uygun küme sayısının önceden belirlenmesi kümeleme analizinin tartışmalı konusu olmuştur. Kümeleme kalitesinin ve uygun küme sayısının belirlenmesinde küme geçerlilik indeksleri kullanılmaktadır. Fakat bazı karmaşık yapılar içeren verilerde, küme sayılarında kararsızlıklar nedeniyle küme geçerlilik indeksleri birbirleriyle çelişen sonuçlar verebilmektedir. Bunun yanı sıra hangi indeksin en uygun küme sayısını belirlediğini ortaya koyan bir ölçütte bulunmamaktadır. Bu çalışmada en uygun küme sayısı belirlenmede; Silhouette indeksi, Calinski Harabasz indeksi, Krzanowski Lai indeksi ve Wilk's Lambda istatistiği ile Yapay Sinir Ağları'ndan elde edilen değerler karşılaştırılarak en uygun küme sayısı hakkında karar verilmeye çalışılmıştır. Uygulamada; TR72 bölgesinde bulunan Kayseri, Sivas ve Yozgat'a bağlı 46 ilçe, 15 değişkene göre kümeleme analizi ile sınıflandırılmıştır. Değişkenler; nüfus, ortalama hane halkı büyüklüğü, işsizlik oranı, şehirleşme oranı, tarım sektöründe çalışanların oranı, okur yazar oranı, nüfus artış hızı, sanayi sektöründe çalışanların oranı, bebek ölüm oranı, nüfus yoğunluğu, hizmet sektöründe çalışma oranı, fert başına genel bütçe geliri, nüfus bağlılık oranı, tarımsal üretimin ülke içindeki payı ve vergi gelirlerinin ülke içindeki payı 22.09.2002 tarihinde Türkiye İstatistik Kurumu ve Devlet Planlama Teşkilatı tarafından İstatistikî Bölge Birimleri Sınıflandırması (İBBS) Düzey 2'de hazırlanan verilerden alınmıştır. Analiz sonuçlarına göre, Silhouette indeksi 3 kümeye, Calinski Harabasz indeksi 4 kümeye, Krzanowski Lai indeksi 3 kümeye ve Wilk's Lambda istatistiği ise 4 kümeye ayırmıştır. Yapay Sinir Ağları ile de 4 kümeye ayrılmıştır. Oluşan kümeler incelendiğinde Calinski Harabasz indeksi ve Wilk's Lambda istatistiği ile YSA'nın daha başarılı sonuçlar verdiği belirlenmiştir. Bu sonuçlara göre YSA'nın da uygun küme sayısının belirlenmesinde küme geçerlilik teknikleri arasında kullanılabileceği gözlenmektedir.
Özet (Çeviri)
The purpose of clustering analysis is to create clustering structures by detecting sub-sets (group, class) similar to each other when groups are not exactly known. Clustering Analysis in order to achieve healthy results it is important to determine the optimal number of clusters. But it is hard to say for the appropriate number of clusters because of complicated data structures. Cluster validity indices are used when determining the clustering quality and the number of clusters. But some complex structures in the data set that contains instability due to the number of valid indexes a set of conflicting results. Besides this, there is no criterion which indicates which index determines the most suitable cluster number. In this study, it is used Artificial Neural Networks to determine the best cluster number. Also other well-known indices Silhouette index, Calinski Harabasz index, Krzanowski Lai index and Wilk's Lambda statistic are used to compare with proposed method. In analysis TR72 socio-economic data is used.46 districts of Kayseri, Sivas and Yozgat in TR72 region were classified by clustering analysis according to 15 variables. Variables; population, average household size, unemployment rate, urbanization rate, the proportion of employees in the agricultural sector, literacy rate, the rate of population growth, the proportion of workers in the industrial sector, the infant mortality rate, the population density, working rate in service sector, the general budget revenue per person, the population dependency ratio, the share of agricultural production within the country, and the share of tax revenues in the country. Data are taken by Turkey Statistics Institution. According to the results of analysis, Silhouette index shown 4 cluster, Calinski-Harabasz index shown 3 cluster, Krzanowski Lai index shown 3 and Wilk's Lambda statistic shown 4 clusters. Proposed method Artificial Neural Networks is also divided data into 4 clusters. When the resulting clusters were examined, Calinski Harabasz index and Wilk's Lambda statistic and ANN determined that it gave more successful results. According to these results, it can be seen that ANN can be used as cluster validity techniques in determining the appropriate number of sets.
Benzer Tezler
- Tüketici tercihlerinin yapay sinir ağları yöntemiyle tahmini: Perakende sektöründe bir uygulama
Prediction of consumer preferences by artificial neural networks method: An application in the retail sector
BAHAR ÇELİK
- Çevresel koşulların sığırlarda süt verimi üzerine etkisinin makine öğrenme modelleri ile araştırılması
Evaluation of the impact of environmental conditions on dairy cattle milk yield using machine learning algorithms
HAKAN DUMAN
Doktora
Türkçe
2023
BiyoistatistikIğdır ÜniversitesiTarım Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET KAZIM KARA
DR. ÖĞR. ÜYESİ ONUR ŞAHİN
- Data driven optimization and applications in complex real-life problems
Veri güdümlü optimizasyon ve kompleks gerçek hayat problemlerinde uygulamaları
NURULLAH GÜLEÇ
Doktora
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR KABAK
- A psychological assessment model on the commercial maritime transport sector
Ticari deniz taşımacılığı sektörüne ilişkin bir psikolojik değerlendirme modeli
CENK AY
Doktora
İngilizce
2024
Denizcilikİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ELİF BAL BEŞİKÇİ
- Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama
Self organised signal pattern encoding by wavelet transform method
MERİÇ YÜCEL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
PROF. DR. BURAK BERK ÜSTÜNDAĞ