Yoğunluk tabanlı kümeleme metodları kullanılarak paralel veri madenciliği gerçekleştirilmesi
Parallel data mining by using density based clustering methods
- Tez No: 266135
- Danışmanlar: YRD. DOÇ. DR. TURGAY TUGAY BİLGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: Türkçe
- Üniversite: Maltepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Bu tez çalışmasında DBSCAN ve OPTICS algoritmaları, yazarlarının makalelerinde ortaya koyduğu sözde kodlar temel alınarak kodlanmıştır. Tek bilgisayar üzerinde gerçekleştirilen çalışmalarda komşuluk sorgularının çok zaman aldığı görülmüş ve bu sürenin kısaltılması için R*-Tree veri yapısı kullanılmıştır. DBSCAN algoritmasının paralelleştirilmesi için LAM/MPI kütüphanesi kullanılmıştır. DBSCAN uygulamasının en çok zaman harcayan kısmı olan komşuluk sorguları, LAM/MPI yardımı ile tüm bilgisayarlara eşit şekilde paylaştırılarak yapılmıştır. 3 farklı veri seti ile gerçekleştirilen testlerde DBSCAN algoritmasının paralelleştirmeye elverişli olduğu ve paralel çalışan DBSCAN'in Amdahl Kanunu'na uygun olarak çalışma süresinin kısaldığı, bununla birlikte küme oluşturma performansının ve kalitesinin etkilenmediği görülmüştür.Toplam 6 bölümden oluşan tezin birinci bölümünde genel kavramlardan bahsedilmiştir. İkinci bölümde veri madenciliğinin genel tanımı, uygulama alanları, veri madenciliği süreci ve veri madenciliği tekniklerinden bahsedilmiştir. Üçüncü bölümde kümeleme analizinin türlerinden, yoğunluk tabanlı kümeleme yöntemleri ağırlıklı olmak üzere bahsedilmiştir. Dördüncü bölümde paralel hesaplamanın amacı, paralel bilgisayar bellek mimarileri, paralel programlama modelleri ve paralel program tasarımından bahsedilmiştir. Beşinci bölümde paralel DBSCAN uygulamasının geliştirilme amacı, geliştirme ortamı, kullanılan araçlar, kullanılan veri setleri ve uygulamanın geliştirme adımlarından bahsedilmiştir. Altıncı ve son bölümde deneysel sonuçlar tablolar ve grafiklerle verilmiş ve elde edilen sonuçlar irdelenmiştir. Ayrıca bu konuda çalışma yapacak araştırmacılar için öneriler sunulmuştur.
Özet (Çeviri)
In this master thesis, DBSCAN algorithm and OPTICS algorithm have been coded by taking the pseudo-codes; that the writers set forth in their articles, as the basis. It has been noticed that neighborhood queries take too long time on the works carried out on a single computer and R*-Tree data structure is used in order to shorten this period. LAM/MPI library has been used to parallelize DBSCAN algorithm. Neighborhood queries are the part that spends most of the runtime of the DBSCAN application, and this has been performed by equally distributing to all the computers by the help of LAM/MPI. It has been evaluated in the tests; which had been implemented by 3 different data sets, that DBSCAN algorithm is suitable for parallelization and the runtime period of DBSCAN that works parallelly is shortened in accordance with Amdahl Principle.The general concept has been mentioned in the first section of the thesis that consists of 6 chapters. In the second chapter, general definition of data mining, its application areas, data mining process and techniques of data mining have been explained. Third chapter mainly encloses density based clustering methods that is one of the types of clustering analysis. Fourth chapter includes the objective of parallel programming, parallel computer memory architecture, parallel programming models and parallel program design. Fifth chapter consist of the development objective of parallel DBSCAN application, development environment, the tools used, the data sets and the development steps of the application. In the sixth and the last chapter, experimental results have been given with tables and graphics and attained results have been examined. Besides, suggestions have been presented for those who want to make research on this subject.
Benzer Tezler
- Araç-yaya kazalarını önlemek için stereo görüntü tabanlı uzaklık tespit sistemi geliştirilmesi
Development of distance estimation system based on stereo vision to prevent vehicle-pedestrian accidents
EMRE GÜNGÖR
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET ÖZMEN
- Unsupervised fabric defect detection via clustering in spectral domain
Kumaşlarda dokuma hatası tespiti icin spektral alanda kümeleme tabanli gürbüz bir yöntem
SAHAR SHAKIR
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik MühendisliğiAnadolu ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CIHAN TOPAL
- Density-based and parameterless clustering of embedded data streams
Boyutu azaltılmış akan verinin yoğunluğa dayalı ve parametresiz kümelenmesi
ÖZLEM POYRAZ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
- Veri madenciliğinde kümeleme analizi yöntemi uygulaması
A Cluster analysis application on data mining
TURGAY TUGAY BİLGİN
Yüksek Lisans
Türkçe
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
DOÇ. DR. YILMAZ ÇAMURCU
- Density based and balanced data partition strategy for improving school bus routing
Okul otobüsü rotalamasının geliştirilmesi için yoğunluk tabanlı ve dengeli veri parçalama stratejisi
CİHAD ÇAĞLAYAN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATİH VEHBİ ÇELEBİ