Parallelization of K-means and DBSCAN clustering algorithms on a HPC cluster

DBSCAN ve K-means kümeleme algoritmalarının bir HPC kümesi üzerinde paralelleştirilmesi

PDF İndir

Tez No: 338493
Yazar: HUNAIN DURRANI
Danışmanlar: PROF. DR. AHMET COŞAR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2013
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 38

Özet

Günlük olarak bilgisayar sistemleri tarafından işlenmesi gereken bilgi miktarı çok büyük miktarlara erişmiştir. Bu kadar çok datayı istenen sürede işleyebilecek bir super bilgisayarın inşa edilmesi hem çok zor hem de çok pahalı olacaktır. Küme hesaplama bu problem çözmek için yüzlerce küçük bilgisayarın çok-hızlı anahtarlar ile birbirine bağlanmasıyla ortaya çıkmıştır ve toplam işlemci gücü ve parallel işleme teknolojileri kullanılarak bir çok zor problemin çabucak çözülmesini sağlamıştır. Aslında bulut hesaplama küme hesaplama merkezlerinde toplanan yüzbinlerce bilgisayarın parallel bilgi işleme güçlerinin pazarlanmasını sağlamış ve müşterilerin gerek oldukça ek bilgi işleme gücü, veri depolama yeri, bellek, ve komünikasyon kapasitesi satın almalarına izin vermiştir.Veri madenciliği büyük ölçekli işletmelerin çoğu ilişkisiz verilerin içinden yararlı olanlarının çıkartılmasını sağlayan bir teknik olarak araştırmacıların en çok çalıştığı konulardan biri olmuştur. Büyük veri depolarının yaygınlaştığı günümüzde veri madenciliğinin parallel gerçekleştirilmesi bütün büyük işletmelerin temel aracıdır.Bu çalışmada, iki popular kümeleme algorittmasının, K-Means ve DBSCAN, parallel sürümleri geliştirilmiş ve deneysel olarak very miktarı arttıkça başarımdaki iyileşmenin sürdüğü gözlenerek bu parallel sürümlerin parallel ortamlar için çok uygun olduğu gösterilmiştir.

Özet (Çeviri)

The amount of information that must be processed daily by computer systems has reached huge quantities. It is impossible, or would be prohibitively expensive, to build such a powerful supercomputer that could process such large data in the required time limits. Cluster computing has emerged to address this problem by connecting hundreds of small computers using ultra-fast switches so that their combined computational power and parallel processing techniques make it possible to quickly solve many difficult problems. In fact, cloud computing has emerged to market the data processing power collected in cluster computing centers with hundreds of thousands of computers and allow the customers to purchase additional data processing power, storage, memory, and communication capacity when needed.Data mining has been one of the most favorite topics for all the researchers as it?s the technique that helps large scale business to extract useful data from the heap of irrelevant data. In this era of big data stores parallel implementation of data mining is the basic tool of all the large scale businesses.In this research, parallel versions of two popular clustering algorithms, K-Means and DBSCAN, are developed and it is experimentally shown that their performance continues to improve even as the input data size keeps increasing, making these parallel implementations ideally suited to parallel computing environments.

Benzer Tezler

Tez No
394495
K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması
Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison
FURKAN KAYIM
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Beykent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN SİLAHTAROĞLU
Tez No
152038
Improvements in K-means algorithm to execute on large amounts of data
Büyük veriler üzerinde çalışabilmesi için K-means algoritmasının iyileştirilmesi
ERHAN SÜLÜN
Yüksek Lisans
İngilizce
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Yüksek Teknoloji Enstitüsü
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. HALİS PÜSKÜLCÜ
Tez No
649417
İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi
Parallelization of clustering methods for human activity recognition big datasets on cloud
AHMED ABDULRAHMAN M.JAMEL
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BAHRİYE AKAY
Tez No
806209
Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama
Self organised signal pattern encoding by wavelet transform method
MERİÇ YÜCEL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
PROF. DR. BURAK BERK ÜSTÜNDAĞ
Tez No
894539
Context aware real-time clustering with cortical coding method
Kortikal kodlama yöntemi ile bağlama duyarlı gerçek zamanlı kümeleme
SELİM EREN ERYILMAZ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ

Geri Dön