Veri madenciliğinde kümeleme analizi ve hibrit verilerin kümelenmesi üzerine bir algoritma

Clustering analysis in data mining and an algorithm on clustering hybrid data

PDF İndir

Tez No: 488182
Yazar: OSMAN ÇÖREKCİ
Danışmanlar: DOÇ. DR. AYLA ŞAYLI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 95

Özet

Büyük verilerin kendi içinde benzer kümelere ayrılması veri madenciliğinin en temel problemlerinden biridir. Günümüzde büyük verilerin organize edilmiş bir biçimde depolanabilmesi, kümeleme işlemi için geliştirilen yöntemlerin, büyük veriler için etkili çalışabilmesi kriterinin önemi de arttırmıştır. Hiyerarşik kümeleme yöntemleri etkili sonuçlar verse de hesaplama karmaşıklığı nedeniyle büyük veriler ile çalışma konusunda yetersiz kalmaktadır. Hiyerarşik olmayan kümeleme yöntemleri ise maliyet fonksiyonunun kategorik veriler ile çalışamaması nedeniyle tüm veri tipleri için kullanılamamaktadır. Yalnızca kategorik veriler için ve hibrit veriler için bazı hiyerarşik olmayan kümeleme yöntemleri de son zamanlarda geliştirilmiştir. Bunun yanında verideki özelliklerin kümeleme işlemindeki ağırlıkları, verinin doğası gereği veya kümeleme sonucunda elde edilmek istenen sonuçlara bağlı olarak, farklı olabilir. Bu dokümanda, büyük hibrit verilerin etkili bir şekilde kümelenmesi ve bu kümeleme işlemine özelliklerin ağırlıklarının da dâhil edilebilmesi için geliştirilen bir algoritma tanıtacağız. Temel olarak K-Prototypes algoritmasına dayanan bu algoritmayı W-K-Prototypes olarak isimlendireceğiz.

Özet (Çeviri)

Separating large data into similar clusters is one of the basic problems of data mining. Storing large data in an organized way has currently increased the importance of the methods developed for clustering. Even if the hierarchical clustering methods give effective results, they are still inadequate due to their computational complexity. Non-hierarchical clustering methods cannot be used for all data types because of the cost function which cannot run by categorical data. Recently, some non-hierarchical clustering methods have been improved for categorical and hybrid data. In addition, the weights of attributes in clustering might be different due to the nature of the data or the expected results. In this paper, we introduce an algorithm which has been improved for the clustering of large hybrid data in an effective way that also includes the weights of attributes. This algorithm, mainly based on the K-Prototypes algorithm, will be called“W-K-Prototypes”. The computational results show that the algorithm can be used efficiently for clustering.

Benzer Tezler

Tez No
409820
Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması
Development of data reduction algorithms for data mining applications and implementation of these algorithms to image mining
ONUR İNAN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Selçuk Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİHAT YILMAZ
Tez No
146982
Veri madenciliğinde kümeleme analizi ve öğretim başarısının değerlemesine ilişkin bir uygulama
Clustering in data mining and an application on students assessment
GÖKHAN SİLAHTAROĞLU
Doktora
Türkçe
2004
İşletme İstanbul Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. ÖNER ESEN
Tez No
382021
Veri madenciliğinde kümeleme analizi ve sağlık sektöründe bir uygulaması
Clustering analysis in data mining and an application in health sector
SELİM ÇAM
Yüksek Lisans
Türkçe
2014
İstatistik Cumhuriyet Üniversitesi
Sayısal Yöntemler Ana Bilim Dalı
DOÇ. DR. HÜDAVERDİ BİRCAN
Tez No
425724
Bulanık kümeleme analizi ve gençlerde sigara içme eğilimi üzerine bir uygulama
Fuzzy clustering analysis and an application on prevalence of youth tobacco use
HAZEL KAVILI
Yüksek Lisans
Türkçe
2016
İstatistik Yıldız Teknik Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. GÜLHAYAT GÖLBAŞI ŞİMŞEK
Tez No
136090
Veri madenciliğinde kümeleme analizi yöntemi uygulaması
A Cluster analysis application on data mining
TURGAY TUGAY BİLGİN
Yüksek Lisans
Türkçe
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
DOÇ. DR. YILMAZ ÇAMURCU

Geri Dön