Geri Dön

Parallelization of K-means and DBSCAN clustering algorithms on a HPC cluster

DBSCAN ve K-means kümeleme algoritmalarının bir HPC kümesi üzerinde paralelleştirilmesi

  1. Tez No: 338493
  2. Yazar: HUNAIN DURRANI
  3. Danışmanlar: PROF. DR. AHMET COŞAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 38

Özet

Günlük olarak bilgisayar sistemleri tarafından işlenmesi gereken bilgi miktarı çok büyük miktarlara erişmiştir. Bu kadar çok datayı istenen sürede işleyebilecek bir super bilgisayarın inşa edilmesi hem çok zor hem de çok pahalı olacaktır. Küme hesaplama bu problem çözmek için yüzlerce küçük bilgisayarın çok-hızlı anahtarlar ile birbirine bağlanmasıyla ortaya çıkmıştır ve toplam işlemci gücü ve parallel işleme teknolojileri kullanılarak bir çok zor problemin çabucak çözülmesini sağlamıştır. Aslında bulut hesaplama küme hesaplama merkezlerinde toplanan yüzbinlerce bilgisayarın parallel bilgi işleme güçlerinin pazarlanmasını sağlamış ve müşterilerin gerek oldukça ek bilgi işleme gücü, veri depolama yeri, bellek, ve komünikasyon kapasitesi satın almalarına izin vermiştir.Veri madenciliği büyük ölçekli işletmelerin çoğu ilişkisiz verilerin içinden yararlı olanlarının çıkartılmasını sağlayan bir teknik olarak araştırmacıların en çok çalıştığı konulardan biri olmuştur. Büyük veri depolarının yaygınlaştığı günümüzde veri madenciliğinin parallel gerçekleştirilmesi bütün büyük işletmelerin temel aracıdır.Bu çalışmada, iki popular kümeleme algorittmasının, K-Means ve DBSCAN, parallel sürümleri geliştirilmiş ve deneysel olarak very miktarı arttıkça başarımdaki iyileşmenin sürdüğü gözlenerek bu parallel sürümlerin parallel ortamlar için çok uygun olduğu gösterilmiştir.

Özet (Çeviri)

The amount of information that must be processed daily by computer systems has reached huge quantities. It is impossible, or would be prohibitively expensive, to build such a powerful supercomputer that could process such large data in the required time limits. Cluster computing has emerged to address this problem by connecting hundreds of small computers using ultra-fast switches so that their combined computational power and parallel processing techniques make it possible to quickly solve many difficult problems. In fact, cloud computing has emerged to market the data processing power collected in cluster computing centers with hundreds of thousands of computers and allow the customers to purchase additional data processing power, storage, memory, and communication capacity when needed.Data mining has been one of the most favorite topics for all the researchers as it?s the technique that helps large scale business to extract useful data from the heap of irrelevant data. In this era of big data stores parallel implementation of data mining is the basic tool of all the large scale businesses.In this research, parallel versions of two popular clustering algorithms, K-Means and DBSCAN, are developed and it is experimentally shown that their performance continues to improve even as the input data size keeps increasing, making these parallel implementations ideally suited to parallel computing environments.

Benzer Tezler

  1. K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması

    Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison

    FURKAN KAYIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN SİLAHTAROĞLU

  2. Improvements in K-means algorithm to execute on large amounts of data

    Büyük veriler üzerinde çalışabilmesi için K-means algoritmasının iyileştirilmesi

    ERHAN SÜLÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. HALİS PÜSKÜLCÜ

  3. İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi

    Parallelization of clustering methods for human activity recognition big datasets on cloud

    AHMED ABDULRAHMAN M.JAMEL

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BAHRİYE AKAY

  4. Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama

    Self organised signal pattern encoding by wavelet transform method

    MERİÇ YÜCEL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

    PROF. DR. BURAK BERK ÜSTÜNDAĞ

  5. Context aware real-time clustering with cortical coding method

    Kortikal kodlama yöntemi ile bağlama duyarlı gerçek zamanlı kümeleme

    SELİM EREN ERYILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BURAK BERK ÜSTÜNDAĞ