Geri Dön

Büyük veriler için kümeleme algoritmalarının meta-analizi

Meta-analysis of clustering algorithms for big data

  1. Tez No: 954439
  2. Yazar: QORIAH INDAH SUSILOWATI
  3. Danışmanlar: PROF. DR. FATİH BAŞÇİFTÇİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Selçuk Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 104

Özet

Hızlı teknolojik büyümenin birçok etkisinden biri de veri patlamasıdır. Veriler karmaşıklaştıkça, daha büyük veri kümelerinden en anlamlı içgörüleri çıkarmak için kümelemeyi kullanan bilgi madenciliği yaklaşımları giderek daha popüler hale gelmektedir. Veri karmaşıklığı arttıkça kullanılan bilgi madenciliği yaklaşımlarından biri de kümelemedir. Kümeleme, verileri benzerlik özelliklerine göre gruplayabilen ve çeşitli alanlarda yaygın olarak uygulanan denetimsiz bir öğrenme yöntemidir. Bu araştırma, uluslararası konferans katılımcılarından oluşan gerçek bir veri kümesi kullanarak K-Means, DBSCAN, Mean Shift, Aglomeratif Kümeleme, Spectral Kümeleme ve Deep Embedded Kümeleme (DEC) olmak üzere altı kümeleme algoritmasının meta analizini gerçekleştirmiştir. Bu veri kümesi 22.000'den fazla veriden oluşmaktadır ve altı temel özelliğe dayalı olarak özellik seçimi, temizleme ve puanlama aşamalarından geçirilmiştir. Veri seti, altı temel özelliğe göre özellik seçimi, temizleme ve puanlama işlemlerinden geçirilmiştir. Silhouette Skoru, Davies-Bouldin Endeksi (DBI) ve Dunn Endeksi kullanılarak yapılan değerlendirme, 17 küme oluşturmasına ve 5401,72 MiB bellek tüketmesine rağmen, Aglomeratif Kümelemenin en iyi sonuçları verdiğini göstermiştir (Silhouette: 0,2645, DBI: 1,5168, Dunn: 0,533). Mean Shift ve DEC, eşit derecede düşük Silhouette Skorları (-0,055) ve DBI (-2,291) ile oldukça iyi performans gösterirken, Dunn Endeksi değerleri çok düşüktür. K-Means, zaman ve bellek açısından daha verimlidir, ancak küme kalitesi daha düşüktür (Silhouette: 0,04319, Dunn: 0,2617). DBSCAN, verimli olmasına rağmen, yüksek gürültü (258 nokta) ve en kötü DBI (9.969) değerleri üretmektedir. Spektral Kümeleme genel olarak en düşük performansı göstermiştir (Silhouette: -0,04485, DBI: 6,52696). Bu çalışmadan, Aglomeratif Kümelemenin en iyi küme kalitesini ürettiği, ancak bellek verimliliği ve aşırı küme sayısı gibi dezavantajları olduğu sonucuna varılabilir. K-Means ve DBSCAN hesaplama verimliliğinde üstündür, ancak küme kalitesinde daha az optimaldir. Spektral Kümeleme, temsili olmayan küme ayrımı ile en kötü performansı göstermiştir. Bu araştırma, büyük veri bağlamında kümelemenin yalnızca bir değerlendirme metriğinden görülemeyeceği ve en iyi yaklaşımın daha optimum sonuçlar elde etmek için dahili değerlendirme matrislerini birleştirmek olduğu sonucuna varmaktadır.

Özet (Çeviri)

One of the many impacts of rapid technological growth is the explosion of data. As data grows more complex, knowledge mining approaches that use clustering to extract the most meaningful insights from larger data sets are becoming increasingly popular. One of the knowledge mining approaches used as data complexity increases is clustering. Clustering is an unsupervised learning method that can group data based on similarity features and has been widely implemented in various fields. This research conducted a meta-analysis of six clustering algorithms K-Means, DBSCAN, Mean Shift, Agglomerative Clustering using a real dataset of more than 22,000 international conference participants. The dataset was processed through feature selection, cleaning, and scoring based on six key attributes. Evaluation using Silhouette Score, Davies-Bouldin Index (DBI), and Dunn Index showed that Agglomerative Clustering gave the best results (Silhouette: 0.2645, DBI: 1.5168, Dunn: 0.533), despite producing 17 clusters and consuming 5401.72 MiB of memory. Mean Shift and DEC perform quite well with equally low Silhouette Scores (-0.055) and DBI (-2.291), but very low Dunn's Index values. K-Means is more efficient in terms of time and memory but has lower cluster quality (Silhouette: 0.04319, Dunn: 0.2617). DBSCAN, although efficient, produces high noise (258 points) and the worst DBI (9,969). Spectral Clustering had the poorest performance overall (Silhouette: -0.04485, DBI: 6.52696). From this study it can be concluded that Agglomerative Clustering produces the best cluster quality, but still has the disadvantages of memory efficiency and excessive number of clusters. K-Means and DBSCAN excel in computational efficiency, but are less optimal in cluster quality. Spectral Clustering showed the worst performance with unrepresentative cluster separation. This research concludes that in the context of big data clustering cannot only be seen from one evaluation metric and the best approach is to combine internal evaluation matrices to get more optimal results.

Benzer Tezler

  1. Yeni makine öğrenmesi metotları ve ilaç tasarımına uygulamaları

    New machine learning algorithms and applications to drug design

    MEHMET FATİH AMASYALI

    Doktora

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. OKAN ERSOY

    PROF. DR. OYA KALIPSIZ

  2. Fuzzy clustering based ensemble learning approach: Applications in digital advertising

    Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar

    AHMET TEZCAN TEKİN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. FERHAN ÇEBİ

    PROF. DR. TOLGA KAYA

  3. Akan veriler için metasezgisel ve birleştirme tabanlı kümeleme algoritmalarının tasarımı ve gerçekleştirimi.

    The design and implementation of metaheuristic and merging based clustering algorithms for streaming data.

    MUSA MİLLİ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN BULUT

  4. Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları

    Data mining applications using partitional clustering methods

    MELTEM IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ÖZGÜL VAYVAY

  5. Metamodeling approach by using multiple regression integrated K-means clustering algorithm for simulation optimization

    K-means kümeleme algoritması kullanılarak benzetimle eniyileme için metamodel oluşturma yaklaşımı

    EMRE İRFANOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Endüstri ve Endüstri MühendisliğiDeniz Harp Okulu Komutanlığı

    YRD. DOÇ. İLKER AKGÜN