Büyük veride hiyerarşik kümeleme yöntemlerinin kofenetik korelasyon ile karşılaştırılması
Comparison of hierarchical cluster methods by cophenetic correlation in big data
- Tez No: 646095
- Danışmanlar: DOÇ. DR. SİNAN SARAÇLI
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Kofenetik korelasyon, Büyük veri, Kümeleme analizi, Cophenetic correlation, Big data, Cluster analysis
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Afyon Kocatepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Bu çalışmada, öncelikle büyük verinin tanımı, büyük verinin bilişenleri, büyük veri analitiği ve büyük veri teknolojileri hakkında teorik-kuramsal bilgilere yer verilmiştir. Bununla birlikte kümeleme analizi, kümeleme yöntemleri, kümeleme yöntemi uzaklık ölçütleri ve Kofenetik korelasyon katsayısı hakkında da teorik-kuramsal bilgiler yer almaktadır. Devamında ise büyük veri teknolojilerini kullanarak büyük veride hiyerarşik kümeleme yöntemleri Kofenetik korelasyon katsayısı karşılaştırılmıştır. Veri analizi için açık kaynaklı büyük veri teknolojilerini içeren Amazon bulut sunucusu kullanılmıştır. Sunucu üzerine Python programlama dili kurulmuş ve analiz sürecinde Python için geliştirilmiş kütüphaneler kullanılmıştır. Çalışmada ABD Ulaştırma Bakanlığı tarafından yayınlanan 2015 Hava Seyahat Tüketici Raporundaki veri seti kullanılmıştır. Çalışmanın sonucuna etki etmeyecek veri setindeki değişkenler, analiz süreçlerini uzatabileceğinden özellik seçim işlemi ile çıkartılmıştır. Sonrasında, boş gözlemler temizlenmiş ve veriler standardize edilmiştir. Ardından, veri seti içerisinden ana kütleye temsilen rastgele seçim yöntemiyle 4 farklı veri seti oluşturulmuştur. Bu veri setlerine kümeleme analizi uygulanmıştır. Yapılan analizler sonucunda tüm veri setlerinde Kofenetik korelasyon katsayısının, ortalama bağlantı kümeleme yönteminde en yüksek değeri sağladığı gözlemlenmiştir. 2020, ix + 50 sayfa
Özet (Çeviri)
In this study, firstly, theoretical information about the definition of big data, components of big data, Big data analytics and big data technologies are included. In addition, theoretical information about cluster analysis, clustering methods, distance measures of clustering method and cophenetic correlation coefficient are given. Afterwards, hierarchical clustering methods in big data using big data technologies were compared with the cophenetic correlation coefficient. Amazon Cloud Server containing open source big data technologies was used for data analysis. Python programming language is installed on this server. Libraries developed for Python were used in the analysis processes. Air Travel Consumer Report in the USA for 2015, which was published as an open access data set, was used. Since the inclusion of variables that do not affect the result analysis may prolong the analysis process, the feature selection process has been performed. The blank observations were then cleared and the data were standardized. Afterwards, 4 different data sets were created by random selection method representing the main population from the data set. Clustering analysis was applied to these data sets. As a result of the analysis, it was observed that the cophenetic correlation coefficient gave the highest result in the Avarage Clustering method in all data sets. 2020, ix + 50 pages
Benzer Tezler
- Kümeleme yöntemleri ile müşteri kanal göçü analizi
Customer channel migration analysis with clustering methods
GİZEM ÇALIŞKAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ
- Kohonen öz örgütlemeli haritalama yöntemi ile psikotik hastalıkların kümelenmesi
Kohonen cluster of psychotic diseases by self organizing mapping method
ASLI ÇİFTCİ
Yüksek Lisans
Türkçe
2018
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Bilim Dalı
DR. ÖĞR. ÜYESİ SEVİLAY KARAHAN
- Derin öğrenme ile cerrahi video anlama
Surgical video understanding with deep learning
ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
- Data analytics in industrial applications
Endüstriyel uygulamalarda veri analitiği
ÖZGÜRDENİZ DÖĞER
Yüksek Lisans
İngilizce
2018
Endüstri ve Endüstri MühendisliğiYıldız Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. VİLDAN ÖZKIR
- Değerli müşterilerde ürün kategorileri arasındaki satış ilişkilerinin veri madenciliği yöntemlerinden birliktelik kuralları ve kümeleme analizi ile belirlenmesi ve ulusal bir perakendecide örnek uygulama
Determining the relationship between sales of the product categorywith valuable customer datamining association rules and clustering analysis methods and practices on a national retailers
YUNUS KÖSE