Büyük verinin makine öğrenmesi yöntemleri ile apache spark teknolojisi kullanılarak sınıflandırılması

Classification of big data with machine learning methods using apache spark technology

PDF İndir

Tez No: 484027
Yazar: YADİGAR ERDEM
Danışmanlar: YRD. DOÇ. DR. CANER ÖZCAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: Türkçe
Üniversite: Karabük Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 75

Özet

Bu çalışmada, teknolojinin ve internetin hızla gelişmekte olduğu bilgi çağında verilerin üretimi, depolanması, analiz edilmesi ve analiz sonuçlarının büyük bir değere sahip olduğundan dolayı büyük veri üzerinde çalışılmıştır. Büyük veri üzerinde sınıflandırma ve kümeleme işlemleri zaman alıcı olabilmektedir. Bu çalışmada, büyük verinin işlenmesi ve analiz edilmesi için geliştirilen Apache Spark teknolojisi kullanılarak farklı büyük veriler üzerinde sınıflandırma, kümeleme ve aykırı değer algılama işlemlerinin yapılması amaçlanmıştır. Bu amaçla, makine öğrenmesi algoritmalarını içeren Apache Spark'ın MLlib kütüphanesinden faydalanılmıştır. Apache Spark teknolojisini kullanarak hataya dayanıklı, güvenilir, tutarlı ve hızlı sınıflandırma ve kümeleme işlemi gerçekleştirmesi amaçlanmaktadır. Bu çalışmada kullanılan MLlib kütüphanesinde yer alan Naïve Bayes, K-means ve Gaussian Mixture yöntemleri ile büyük verilerin başarılı bir şekilde analiz edilmesi sağlanmış algoritmaların çalışma süreleri farklı veri boyutları kullanılarak tespit edilmiştir. K-means kümeleme algoritmasının uygulaması Spark Standalone modda, 1 master ile 1 master 3 worker şeklinde çalıştırılıp çalışma süreleri tespit edilmiştir.

Özet (Çeviri)

In this study, big data have been studied because the production, storage, analysis and analysis results of the data have a great value in the information age that technology and internet are developing rapidly. Classification and clustering operations on big data is time consuming. In this work, classification, clustering and outlier detection are aimed on different big data sets using Apache Spark technology which is developed for processing and analyzing big data. For this purpose, Apache Spark MLlib library, which contains machine learning algorithms, is used. It is intended to perform fault tolerant, reliable, consistent, and rapid classification and clustering using Apache Spark technology. Naïve Bayes, K-means and Gaussian Mixture methods in the MLlib library are used to successfully analyze big data sets. The working times of the algorithms are determined using different data set sizes. The application of the K-means clustering algorithm is executed as 1 master and 1 master 3 worker in Spark Standalone mode and the working times are determined.

Benzer Tezler

Tez No
572424
Yaşanan terör olaylarını içeren büyük verinin makine öğrenmesi teknikleri ile analizi
Analysis of big data including terror terms with machine learning techniques
BARIŞ KARABAY
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ULAŞ
Tez No
637004
Apache Spark kullanılarak büyük boyutlu görüntülerin analizi
Analysis of large dimensional images using Apache Spark
BETÜL DOLAPCI
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CANER ÖZCAN
Tez No
479534
Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hava Harp Okulu Komutanlığı
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
Tez No
658195
Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
DENİZ GÜL ÖZCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Akdeniz Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT DENİZ ULUŞAR
Tez No
721475
Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi
Analysis of container port operations using machine learning methods
ÜSTÜN ATAK
Doktora
Türkçe
2022
Deniz Bilimleri İstanbul Teknik Üniversitesi
Deniz Ulaştırma Mühendisliği Ana Bilim Dalı
PROF. DR. YASİN ARSLANOĞLU
PROF. DR. TOLGA KAYA

Geri Dön