Hiyerarşik kümeleme metotları ile veri madenciliği uygulamaları
Data mining applications using hierarchical clustering algorithms
- Tez No: 198304
- Danışmanlar: DOÇ. DR. YILMAZ ÇAMURCU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2005
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 124
Özet
Veri üretme, veri toplama ve veri kullanımındaki teknolojik gelişmeler sonucuhızlı bir şekilde artan veritabanı boyutları, verileri kısa süre içinde kullanışlı veanlaşılır bilgilere çevirebilen yeni teknikler ve araçlar gerektirmektedir. Bugereksinimlere yanıt vermek üzere tanımlanan veri madenciliği, mevcut verikaynaklarından, kullanıcının farklı sorularına yanıt verecek, kesin, faydalı, anlaşılır,önceden bilinmeyen ve kullanışlı bilgilerin elde edilmesi işlemidir. Verimadenciliğinde yaygın olarak kullanılan yöntemlerden biri kümeleme analizidir.Kümeleme işlemi veri analizlerinin örüntü oluşturma aşamasında, verikaynağındaki tüm verileri kullanmak yerine, benzer özellik gösteren verileri temsileden kümeleri kullanır. Veri madenciliğinde bir çok kümeleme metodubulunmaktadır. Bu çalışmada, kümeleme metotlarından hiyerarşik kümelememetodunun farklı algoritmalarının uygulamalı karşılaştırmaları yapılmıştır.Hiyerarşik kümeleme metotlarında, verilerin iç içe gruplaşma ilişkisini vegruplaşmaların değiştiği benzerlik seviyelerini ağaç yapısı şeklinde gösteren birdendrogram yapısı oluşturulur. Bu işlem veri noktalarını veya küçük kümeleribirleştirerek yada büyük kümeleri parçalara bölerek gerçekleştirilir.Bu tezde, veri madenciliği ve veri madenciliğinde kullanılan kümeleme analizimetotları ve bu metotlardan birisi olan hiyerarşik kümeleme algoritmaları hakkındateorik bilgiler verilmiştir. Daha sonra hiyerarşik kümeleme algoritmalarından CURE(Clustering Using REpresentatives) ve AGNES (AGglomerative NESting) ilebölümleyici kümeleme algoritmalarından k-means algoritmasının yapıları ayrıntılıolarak incelenmiş ve bu algoritmalar tarafımızca MATLAB'de hazırlanmış birprogram aracılığıyla sentetik veri setleri üzerinde uygulanmıştır. Elde edilensonuçların karşılaştırmaları yapılmıştır. Algoritmaların gerçek veri setleri üzerindekisonuçlarının değerlendirilmesini sağlamak için süsen bitkisinin taç ve çanak yapraklarınınbüyüklükleri bilgilerini taşıyan iris veri setinde de uygulamalar gerçekleştirilmiştir.Gerçekleştirilen uygulamalar sonucunda, k-means algoritmasının ayrık ve sıkışıkbulutlar halindeki kümeleri başarıyla bulduğu görülmüştür. Bu algoritma benzer büyüklüktekiküresel kümeleri bulabilirken çok büyük kümeleri küresel de olsa parçalara ayırmaktadır.AGNES algoritması uygulamaları bu algoritmanın küresel kümeleri etkili bir şekildebulduğunu ancak sıradışı noktalara karşı çok duyarlı olduğunu göstermiştir. CUREalgoritması uygulamalarında bu algoritmanın farklı büyüklüklerde ve farklı şekillerdekikümeleri sıradışı noktalardan etkilenmeden başarıyla bulduğu görülmüştür. Ancak, CUREalgoritmasıyla elde edilen kümeler giriş parametrelerinin değerlerinden etkilendiğisaptanmıştır.Temmuz, 2005 Meral DEMİRALAY
Özet (Çeviri)
The rapid growth in the size of data and databases, has generated an urgentneed for new techniques and tools that can intelligently and automatically transformthe processed data into useful information and knowledge. Data mining (DM) is theprocess of discovering meaningful, understandable, implicit, previously unknownand potentially useful information from databases. There are number of techniquesused in DM. One of the techniques is the cluster analysis.Clustering in data analysis prevents using all data points to find meaningfulpatterns in a database by using clusters that represents a number of very similar datapoints as one data point. There are number of techniques used in cluster analysis. Inthis thesis, hierarchical clustering methods are investigated. Hierarchical clusteringmethods builds a dendrogram representing the nested grouping of patterns and thesimilarity levels at which grouping change.In this thesis, data mining and clustering step of data mining process isdescribed briefly and some theoretical background of most frequently usedhierarchical clustering algorithms are explained. Detailed information on CURE,AGNES and k-means are presented and these algorithms are applied to syntheticdatabases in MATLAB platform to compare the performance of each algorithm. Irisdataset is chosen for real world data and CURE, AGNES and k-means algorithmsare applied to that dataset to observe the performance and behavior of thesealgorithms. The results of the applications showed that k-means algorithm can findwell-separated and compact clusters. When there are large differences in cluster sizesk-means algorithm splits the clusters into smaller clusters. AGNES algorithmefficiently finds the spherical clusters but it is very sensitive to outliers. CUREalgorithm efficiently identifies the clusters with different size and arbitrary shapes. Thealgorithm is not very sensitive to the outliers but the input parameters affect the clusteringresults very much. The experimental studies showed that because of the execution time,CURE algorithm is not very useful in real world applications.July, 2005 Meral DEMİRALAY
Benzer Tezler
- K-ortalamalar algoritmasına dayalı kümeleme analizi sistemi ve perakendecilik sektöründe uygulaması
Clustering analysis system based on K-means algorithm and its application in the retail sector
MERVE ÜSTÜNEL
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. AYLA ŞAYLI
- OECD sağlık verilerinin veri madenciliği yöntemleri ile analizi
Analysis of OECD health data with data mining methods
KÜBRA ÇOŞAR
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BUKET DOĞAN
PROF. DR. ALİ BULDU
- Development of decision support algorithms on RFID systems of stores
Mağaza RFID sistemlerde karar destek algoritmalarının geliştirilmesi
BORAN TAYLAN BALCI
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RECEP ALP KUT
- Data analytics in industrial applications
Endüstriyel uygulamalarda veri analitiği
ÖZGÜRDENİZ DÖĞER
Yüksek Lisans
İngilizce
2018
Endüstri ve Endüstri MühendisliğiYıldız Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. VİLDAN ÖZKIR
- Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama
Self organised signal pattern encoding by wavelet transform method
MERİÇ YÜCEL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
PROF. DR. BURAK BERK ÜSTÜNDAĞ