Geri Dön

K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması

Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison

  1. Tez No: 394495
  2. Yazar: FURKAN KAYIM
  3. Danışmanlar: DOÇ. DR. GÖKHAN SİLAHTAROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Beykent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Hayatımızdaki her türlü eylem bilgisayar üzerinden yürütülmeye başlamıştır. Neredeyse tüm sektörlerde yapılan işin merkezine yerleşen bu teknoloji, iş süreçlerinin yürütülmesinde kolaylaştırıcı ve süreci hızlandırıcı adımları da gün geçtikçe gerekli kılıyor. Nitekim bilgisayar temelli çalışmalarda karşılaşılan aksaklıklar uzun vadede şirketlerin ciddi oranda kayıplar yaşamasına neden olurken; yaşanan bu olumsuzlukların özünü giderek büyüyen verilerin kontrolsüz yönetimi oluşturuyor. Büyük verilerle yapılan her türlü işlem veri saklama, veri analizi, verilerin gösterimi gibi pek çok soruna neden olabilmektedir. Bu sorunlar başta veri kayıpları olmak üzere pek çok olumsuzlukla sonuçlanabilmekte, bu da alanda yapılacak çalışmanın gerekliliğini bir kez daha hissedilir kılmaktadır. Bu tezde büyük verilerle çalışma yöntemleri araştırılarak, bu verilerle daha hızlı çalışma yapılabilmesi ve daha kararlı sonuçlar alınabilmesine yönelik uygulamalara yer verilmiştir. Bu bağlamda öncelikle büyük verilerle veri madenciliği algoritmalarının birlikte nasıl kullanılabilecekleri performans değerlendirmeleri ile ele alınmış ve veri madenciliği algoritmalarından DBSCAN ve K-means algoritmalarının paralelleştirmesi incelenmiştir. Ardından Hadoop teknolojisi araştırılarak Pig, Hive, Impala performans karşılaştırılması yapılmış, Hadoop teknolojilerinin hangi projelerde kullanılabileceği irdelenmiştir. Hadoop üzerinde veri madenciliği algoritmalarının Mahout ile çalıştırılabileceği de ayrıca görülmüştür.

Özet (Çeviri)

All actions in our life are now carried out through computers. This technology, which is now at the center of businesses performed in almost all sectors, day by day necessitates steps that facilitate and accelerate performance of business processes. Indeed, faults encountered in computer-based works result in significant losses for companies in the long run; while uncontrolled management of growing data constitute the essence of these problems. All operations performed with large data can cause many problems such as data storage, data analysis and data display. These problems may end up with many problems, especially data loss, and once again indicates the need for carrying out works in this field. In this thesis, methods for working with big data have been explored and applications for performing fast operations and obtaining more stable results with such data have been provided. In this context, methods for joint use of data mining algorithms for large data have been primarily considered with performance evaluations and parallelization of data minin algorithms DBSCAN and K-means have been analyzed. The Hadoop technology has been analyzed and performance comparison has been made with Pig, Hive and Impala, also projects have been examined where Hadoop technologies could be used. It has also been observed that data mining algorithms on Hadoop can be used with Mahout.

Benzer Tezler

  1. Parallelization of K-means and DBSCAN clustering algorithms on a HPC cluster

    DBSCAN ve K-means kümeleme algoritmalarının bir HPC kümesi üzerinde paralelleştirilmesi

    HUNAIN DURRANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET COŞAR

  2. Kümeleme yöntemleri ile müşteri kanal göçü analizi

    Customer channel migration analysis with clustering methods

    GİZEM ÇALIŞKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET YASİN ULUKUŞ

  3. Veri madenciliğinde kümeleme analizi yöntemi uygulaması

    A Cluster analysis application on data mining

    TURGAY TUGAY BİLGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    DOÇ. DR. YILMAZ ÇAMURCU

  4. Ülkelerin yolsuzluk göstergelerine göre DBSCAN ile kümelenmesi

    Clustering of countries according to corruption indicators with DBSCAN

    ŞULE AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İstatistikMarmara Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. AHMET METE ÇİLİNGİRTÜRK

  5. Kentsel ani sel felaketlerine karşı mücadelede yapay zeka tabanlı bir karar destek sistemi

    An artificial intelligence-based decision support system for urban flash flood disaster response

    İREM KARAKAYA

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiYıldız Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALEV TAŞKIN