Parallelization of K-means and DBSCAN clustering algorithms on a HPC cluster
DBSCAN ve K-means kümeleme algoritmalarının bir HPC kümesi üzerinde paralelleştirilmesi
- Tez No: 338493
- Danışmanlar: PROF. DR. AHMET COŞAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 38
Özet
Günlük olarak bilgisayar sistemleri tarafından işlenmesi gereken bilgi miktarı çok büyük miktarlara erişmiştir. Bu kadar çok datayı istenen sürede işleyebilecek bir super bilgisayarın inşa edilmesi hem çok zor hem de çok pahalı olacaktır. Küme hesaplama bu problem çözmek için yüzlerce küçük bilgisayarın çok-hızlı anahtarlar ile birbirine bağlanmasıyla ortaya çıkmıştır ve toplam işlemci gücü ve parallel işleme teknolojileri kullanılarak bir çok zor problemin çabucak çözülmesini sağlamıştır. Aslında bulut hesaplama küme hesaplama merkezlerinde toplanan yüzbinlerce bilgisayarın parallel bilgi işleme güçlerinin pazarlanmasını sağlamış ve müşterilerin gerek oldukça ek bilgi işleme gücü, veri depolama yeri, bellek, ve komünikasyon kapasitesi satın almalarına izin vermiştir.Veri madenciliği büyük ölçekli işletmelerin çoğu ilişkisiz verilerin içinden yararlı olanlarının çıkartılmasını sağlayan bir teknik olarak araştırmacıların en çok çalıştığı konulardan biri olmuştur. Büyük veri depolarının yaygınlaştığı günümüzde veri madenciliğinin parallel gerçekleştirilmesi bütün büyük işletmelerin temel aracıdır.Bu çalışmada, iki popular kümeleme algorittmasının, K-Means ve DBSCAN, parallel sürümleri geliştirilmiş ve deneysel olarak very miktarı arttıkça başarımdaki iyileşmenin sürdüğü gözlenerek bu parallel sürümlerin parallel ortamlar için çok uygun olduğu gösterilmiştir.
Özet (Çeviri)
The amount of information that must be processed daily by computer systems has reached huge quantities. It is impossible, or would be prohibitively expensive, to build such a powerful supercomputer that could process such large data in the required time limits. Cluster computing has emerged to address this problem by connecting hundreds of small computers using ultra-fast switches so that their combined computational power and parallel processing techniques make it possible to quickly solve many difficult problems. In fact, cloud computing has emerged to market the data processing power collected in cluster computing centers with hundreds of thousands of computers and allow the customers to purchase additional data processing power, storage, memory, and communication capacity when needed.Data mining has been one of the most favorite topics for all the researchers as it?s the technique that helps large scale business to extract useful data from the heap of irrelevant data. In this era of big data stores parallel implementation of data mining is the basic tool of all the large scale businesses.In this research, parallel versions of two popular clustering algorithms, K-Means and DBSCAN, are developed and it is experimentally shown that their performance continues to improve even as the input data size keeps increasing, making these parallel implementations ideally suited to parallel computing environments.
Benzer Tezler
- K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması
Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison
FURKAN KAYIM
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN SİLAHTAROĞLU
- Improvements in K-means algorithm to execute on large amounts of data
Büyük veriler üzerinde çalışabilmesi için K-means algoritmasının iyileştirilmesi
ERHAN SÜLÜN
Yüksek Lisans
İngilizce
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. HALİS PÜSKÜLCÜ
- İnsan aktivitesi tanımaya yönelik büyük veri setlerinde kümeleme yöntemlerinin bulut üzerinde paralelleştirilmesi
Parallelization of clustering methods for human activity recognition big datasets on cloud
AHMED ABDULRAHMAN M.JAMEL
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BAHRİYE AKAY
- Dalgacık dönüşümü yöntemi ile kendi yapılanan işaret örüntü kodlama
Self organised signal pattern encoding by wavelet transform method
MERİÇ YÜCEL
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Context aware real-time clustering with cortical coding method
Kortikal kodlama yöntemi ile bağlama duyarlı gerçek zamanlı kümeleme
SELİM EREN ERYILMAZ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ