Geri Dön

Büyük verinin makine öğrenmesi yöntemleri ile apache spark teknolojisi kullanılarak sınıflandırılması

Classification of big data with machine learning methods using apache spark technology

  1. Tez No: 484027
  2. Yazar: YADİGAR ERDEM
  3. Danışmanlar: YRD. DOÇ. DR. CANER ÖZCAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Karabük Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Bu çalışmada, teknolojinin ve internetin hızla gelişmekte olduğu bilgi çağında verilerin üretimi, depolanması, analiz edilmesi ve analiz sonuçlarının büyük bir değere sahip olduğundan dolayı büyük veri üzerinde çalışılmıştır. Büyük veri üzerinde sınıflandırma ve kümeleme işlemleri zaman alıcı olabilmektedir. Bu çalışmada, büyük verinin işlenmesi ve analiz edilmesi için geliştirilen Apache Spark teknolojisi kullanılarak farklı büyük veriler üzerinde sınıflandırma, kümeleme ve aykırı değer algılama işlemlerinin yapılması amaçlanmıştır. Bu amaçla, makine öğrenmesi algoritmalarını içeren Apache Spark'ın MLlib kütüphanesinden faydalanılmıştır. Apache Spark teknolojisini kullanarak hataya dayanıklı, güvenilir, tutarlı ve hızlı sınıflandırma ve kümeleme işlemi gerçekleştirmesi amaçlanmaktadır. Bu çalışmada kullanılan MLlib kütüphanesinde yer alan Naïve Bayes, K-means ve Gaussian Mixture yöntemleri ile büyük verilerin başarılı bir şekilde analiz edilmesi sağlanmış algoritmaların çalışma süreleri farklı veri boyutları kullanılarak tespit edilmiştir. K-means kümeleme algoritmasının uygulaması Spark Standalone modda, 1 master ile 1 master 3 worker şeklinde çalıştırılıp çalışma süreleri tespit edilmiştir.

Özet (Çeviri)

In this study, big data have been studied because the production, storage, analysis and analysis results of the data have a great value in the information age that technology and internet are developing rapidly. Classification and clustering operations on big data is time consuming. In this work, classification, clustering and outlier detection are aimed on different big data sets using Apache Spark technology which is developed for processing and analyzing big data. For this purpose, Apache Spark MLlib library, which contains machine learning algorithms, is used. It is intended to perform fault tolerant, reliable, consistent, and rapid classification and clustering using Apache Spark technology. Naïve Bayes, K-means and Gaussian Mixture methods in the MLlib library are used to successfully analyze big data sets. The working times of the algorithms are determined using different data set sizes. The application of the K-means clustering algorithm is executed as 1 master and 1 master 3 worker in Spark Standalone mode and the working times are determined.

Benzer Tezler

  1. Yaşanan terör olaylarını içeren büyük verinin makine öğrenmesi teknikleri ile analizi

    Analysis of big data including terror terms with machine learning techniques

    BARIŞ KARABAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA ULAŞ

  2. Apache Spark kullanılarak büyük boyutlu görüntülerin analizi

    Analysis of large dimensional images using Apache Spark

    BETÜL DOLAPCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CANER ÖZCAN

  3. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  4. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR

  5. Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi

    Analysis of container port operations using machine learning methods

    ÜSTÜN ATAK

    Doktora

    Türkçe

    Türkçe

    2022

    Deniz Bilimleriİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    PROF. DR. YASİN ARSLANOĞLU

    PROF. DR. TOLGA KAYA