Büyük veriler için kümeleme algoritmalarının meta-analizi

Meta-analysis of clustering algorithms for big data

PDF İndir

Tez No: 954439
Yazar: QORIAH INDAH SUSILOWATI
Danışmanlar: PROF. DR. FATİH BAŞÇİFTÇİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Selçuk Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 104

Özet

Hızlı teknolojik büyümenin birçok etkisinden biri de veri patlamasıdır. Veriler karmaşıklaştıkça, daha büyük veri kümelerinden en anlamlı içgörüleri çıkarmak için kümelemeyi kullanan bilgi madenciliği yaklaşımları giderek daha popüler hale gelmektedir. Veri karmaşıklığı arttıkça kullanılan bilgi madenciliği yaklaşımlarından biri de kümelemedir. Kümeleme, verileri benzerlik özelliklerine göre gruplayabilen ve çeşitli alanlarda yaygın olarak uygulanan denetimsiz bir öğrenme yöntemidir. Bu araştırma, uluslararası konferans katılımcılarından oluşan gerçek bir veri kümesi kullanarak K-Means, DBSCAN, Mean Shift, Aglomeratif Kümeleme, Spectral Kümeleme ve Deep Embedded Kümeleme (DEC) olmak üzere altı kümeleme algoritmasının meta analizini gerçekleştirmiştir. Bu veri kümesi 22.000'den fazla veriden oluşmaktadır ve altı temel özelliğe dayalı olarak özellik seçimi, temizleme ve puanlama aşamalarından geçirilmiştir. Veri seti, altı temel özelliğe göre özellik seçimi, temizleme ve puanlama işlemlerinden geçirilmiştir. Silhouette Skoru, Davies-Bouldin Endeksi (DBI) ve Dunn Endeksi kullanılarak yapılan değerlendirme, 17 küme oluşturmasına ve 5401,72 MiB bellek tüketmesine rağmen, Aglomeratif Kümelemenin en iyi sonuçları verdiğini göstermiştir (Silhouette: 0,2645, DBI: 1,5168, Dunn: 0,533). Mean Shift ve DEC, eşit derecede düşük Silhouette Skorları (-0,055) ve DBI (-2,291) ile oldukça iyi performans gösterirken, Dunn Endeksi değerleri çok düşüktür. K-Means, zaman ve bellek açısından daha verimlidir, ancak küme kalitesi daha düşüktür (Silhouette: 0,04319, Dunn: 0,2617). DBSCAN, verimli olmasına rağmen, yüksek gürültü (258 nokta) ve en kötü DBI (9.969) değerleri üretmektedir. Spektral Kümeleme genel olarak en düşük performansı göstermiştir (Silhouette: -0,04485, DBI: 6,52696). Bu çalışmadan, Aglomeratif Kümelemenin en iyi küme kalitesini ürettiği, ancak bellek verimliliği ve aşırı küme sayısı gibi dezavantajları olduğu sonucuna varılabilir. K-Means ve DBSCAN hesaplama verimliliğinde üstündür, ancak küme kalitesinde daha az optimaldir. Spektral Kümeleme, temsili olmayan küme ayrımı ile en kötü performansı göstermiştir. Bu araştırma, büyük veri bağlamında kümelemenin yalnızca bir değerlendirme metriğinden görülemeyeceği ve en iyi yaklaşımın daha optimum sonuçlar elde etmek için dahili değerlendirme matrislerini birleştirmek olduğu sonucuna varmaktadır.

Özet (Çeviri)

One of the many impacts of rapid technological growth is the explosion of data. As data grows more complex, knowledge mining approaches that use clustering to extract the most meaningful insights from larger data sets are becoming increasingly popular. One of the knowledge mining approaches used as data complexity increases is clustering. Clustering is an unsupervised learning method that can group data based on similarity features and has been widely implemented in various fields. This research conducted a meta-analysis of six clustering algorithms K-Means, DBSCAN, Mean Shift, Agglomerative Clustering using a real dataset of more than 22,000 international conference participants. The dataset was processed through feature selection, cleaning, and scoring based on six key attributes. Evaluation using Silhouette Score, Davies-Bouldin Index (DBI), and Dunn Index showed that Agglomerative Clustering gave the best results (Silhouette: 0.2645, DBI: 1.5168, Dunn: 0.533), despite producing 17 clusters and consuming 5401.72 MiB of memory. Mean Shift and DEC perform quite well with equally low Silhouette Scores (-0.055) and DBI (-2.291), but very low Dunn's Index values. K-Means is more efficient in terms of time and memory but has lower cluster quality (Silhouette: 0.04319, Dunn: 0.2617). DBSCAN, although efficient, produces high noise (258 points) and the worst DBI (9,969). Spectral Clustering had the poorest performance overall (Silhouette: -0.04485, DBI: 6.52696). From this study it can be concluded that Agglomerative Clustering produces the best cluster quality, but still has the disadvantages of memory efficiency and excessive number of clusters. K-Means and DBSCAN excel in computational efficiency, but are less optimal in cluster quality. Spectral Clustering showed the worst performance with unrepresentative cluster separation. This research concludes that in the context of big data clustering cannot only be seen from one evaluation metric and the best approach is to combine internal evaluation matrices to get more optimal results.

Benzer Tezler

Tez No
213254
Yeni makine öğrenmesi metotları ve ilaç tasarımına uygulamaları
New machine learning algorithms and applications to drug design
MEHMET FATİH AMASYALI
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. OKAN ERSOY
PROF. DR. OYA KALIPSIZ
Tez No
711174
Fuzzy clustering based ensemble learning approach: Applications in digital advertising
Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar
AHMET TEZCAN TEKİN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
PROF. DR. TOLGA KAYA
Tez No
592704
Akan veriler için metasezgisel ve birleştirme tabanlı kümeleme algoritmalarının tasarımı ve gerçekleştirimi.
The design and implementation of metaheuristic and merging based clustering algorithms for streaming data.
MUSA MİLLİ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
Tez No
185009
Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları
Data mining applications using partitional clustering methods
MELTEM IŞIK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ÖZGÜL VAYVAY
Tez No
333139
Metamodeling approach by using multiple regression integrated K-means clustering algorithm for simulation optimization
K-means kümeleme algoritması kullanılarak benzetimle eniyileme için metamodel oluşturma yaklaşımı
EMRE İRFANOĞLU
Yüksek Lisans
İngilizce
2013
Endüstri ve Endüstri Mühendisliği Deniz Harp Okulu Komutanlığı
YRD. DOÇ. İLKER AKGÜN

Geri Dön