K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması
Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison
- Tez No: 394495
- Danışmanlar: DOÇ. DR. GÖKHAN SİLAHTAROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Beykent Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 78
Özet
Hayatımızdaki her türlü eylem bilgisayar üzerinden yürütülmeye başlamıştır. Neredeyse tüm sektörlerde yapılan işin merkezine yerleşen bu teknoloji, iş süreçlerinin yürütülmesinde kolaylaştırıcı ve süreci hızlandırıcı adımları da gün geçtikçe gerekli kılıyor. Nitekim bilgisayar temelli çalışmalarda karşılaşılan aksaklıklar uzun vadede şirketlerin ciddi oranda kayıplar yaşamasına neden olurken; yaşanan bu olumsuzlukların özünü giderek büyüyen verilerin kontrolsüz yönetimi oluşturuyor. Büyük verilerle yapılan her türlü işlem veri saklama, veri analizi, verilerin gösterimi gibi pek çok soruna neden olabilmektedir. Bu sorunlar başta veri kayıpları olmak üzere pek çok olumsuzlukla sonuçlanabilmekte, bu da alanda yapılacak çalışmanın gerekliliğini bir kez daha hissedilir kılmaktadır. Bu tezde büyük verilerle çalışma yöntemleri araştırılarak, bu verilerle daha hızlı çalışma yapılabilmesi ve daha kararlı sonuçlar alınabilmesine yönelik uygulamalara yer verilmiştir. Bu bağlamda öncelikle büyük verilerle veri madenciliği algoritmalarının birlikte nasıl kullanılabilecekleri performans değerlendirmeleri ile ele alınmış ve veri madenciliği algoritmalarından DBSCAN ve K-means algoritmalarının paralelleştirmesi incelenmiştir. Ardından Hadoop teknolojisi araştırılarak Pig, Hive, Impala performans karşılaştırılması yapılmış, Hadoop teknolojilerinin hangi projelerde kullanılabileceği irdelenmiştir. Hadoop üzerinde veri madenciliği algoritmalarının Mahout ile çalıştırılabileceği de ayrıca görülmüştür.
Özet (Çeviri)
All actions in our life are now carried out through computers. This technology, which is now at the center of businesses performed in almost all sectors, day by day necessitates steps that facilitate and accelerate performance of business processes. Indeed, faults encountered in computer-based works result in significant losses for companies in the long run; while uncontrolled management of growing data constitute the essence of these problems. All operations performed with large data can cause many problems such as data storage, data analysis and data display. These problems may end up with many problems, especially data loss, and once again indicates the need for carrying out works in this field. In this thesis, methods for working with big data have been explored and applications for performing fast operations and obtaining more stable results with such data have been provided. In this context, methods for joint use of data mining algorithms for large data have been primarily considered with performance evaluations and parallelization of data minin algorithms DBSCAN and K-means have been analyzed. The Hadoop technology has been analyzed and performance comparison has been made with Pig, Hive and Impala, also projects have been examined where Hadoop technologies could be used. It has also been observed that data mining algorithms on Hadoop can be used with Mahout.
Benzer Tezler
- Parallelization of K-means and DBSCAN clustering algorithms on a HPC cluster
DBSCAN ve K-means kümeleme algoritmalarının bir HPC kümesi üzerinde paralelleştirilmesi
HUNAIN DURRANI
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET COŞAR
- Kümeleme yöntemleri ile müşteri kanal göçü analizi
Customer channel migration analysis with clustering methods
GİZEM ÇALIŞKAN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ
- Veri madenciliğinde kümeleme analizi yöntemi uygulaması
A Cluster analysis application on data mining
TURGAY TUGAY BİLGİN
Yüksek Lisans
Türkçe
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
DOÇ. DR. YILMAZ ÇAMURCU
- Ülkelerin yolsuzluk göstergelerine göre DBSCAN ile kümelenmesi
Clustering of countries according to corruption indicators with DBSCAN
ŞULE AYDIN
Yüksek Lisans
Türkçe
2022
İstatistikMarmara ÜniversitesiEkonometri Ana Bilim Dalı
PROF. DR. AHMET METE ÇİLİNGİRTÜRK
- Kentsel ani sel felaketlerine karşı mücadelede yapay zeka tabanlı bir karar destek sistemi
An artificial intelligence-based decision support system for urban flash flood disaster response
İREM KARAKAYA
Doktora
Türkçe
2024
Endüstri ve Endüstri MühendisliğiYıldız Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALEV TAŞKIN