Büyük verinin makine öğrenmesi yöntemleri ile apache spark teknolojisi kullanılarak sınıflandırılması
Classification of big data with machine learning methods using apache spark technology
- Tez No: 484027
- Danışmanlar: YRD. DOÇ. DR. CANER ÖZCAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: Karabük Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Bu çalışmada, teknolojinin ve internetin hızla gelişmekte olduğu bilgi çağında verilerin üretimi, depolanması, analiz edilmesi ve analiz sonuçlarının büyük bir değere sahip olduğundan dolayı büyük veri üzerinde çalışılmıştır. Büyük veri üzerinde sınıflandırma ve kümeleme işlemleri zaman alıcı olabilmektedir. Bu çalışmada, büyük verinin işlenmesi ve analiz edilmesi için geliştirilen Apache Spark teknolojisi kullanılarak farklı büyük veriler üzerinde sınıflandırma, kümeleme ve aykırı değer algılama işlemlerinin yapılması amaçlanmıştır. Bu amaçla, makine öğrenmesi algoritmalarını içeren Apache Spark'ın MLlib kütüphanesinden faydalanılmıştır. Apache Spark teknolojisini kullanarak hataya dayanıklı, güvenilir, tutarlı ve hızlı sınıflandırma ve kümeleme işlemi gerçekleştirmesi amaçlanmaktadır. Bu çalışmada kullanılan MLlib kütüphanesinde yer alan Naïve Bayes, K-means ve Gaussian Mixture yöntemleri ile büyük verilerin başarılı bir şekilde analiz edilmesi sağlanmış algoritmaların çalışma süreleri farklı veri boyutları kullanılarak tespit edilmiştir. K-means kümeleme algoritmasının uygulaması Spark Standalone modda, 1 master ile 1 master 3 worker şeklinde çalıştırılıp çalışma süreleri tespit edilmiştir.
Özet (Çeviri)
In this study, big data have been studied because the production, storage, analysis and analysis results of the data have a great value in the information age that technology and internet are developing rapidly. Classification and clustering operations on big data is time consuming. In this work, classification, clustering and outlier detection are aimed on different big data sets using Apache Spark technology which is developed for processing and analyzing big data. For this purpose, Apache Spark MLlib library, which contains machine learning algorithms, is used. It is intended to perform fault tolerant, reliable, consistent, and rapid classification and clustering using Apache Spark technology. Naïve Bayes, K-means and Gaussian Mixture methods in the MLlib library are used to successfully analyze big data sets. The working times of the algorithms are determined using different data set sizes. The application of the K-means clustering algorithm is executed as 1 master and 1 master 3 worker in Spark Standalone mode and the working times are determined.
Benzer Tezler
- Yaşanan terör olaylarını içeren büyük verinin makine öğrenmesi teknikleri ile analizi
Analysis of big data including terror terms with machine learning techniques
BARIŞ KARABAY
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA ULAŞ
- Apache Spark kullanılarak büyük boyutlu görüntülerin analizi
Analysis of large dimensional images using Apache Spark
BETÜL DOLAPCI
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CANER ÖZCAN
- Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu KomutanlığıBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
- Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
DENİZ GÜL ÖZCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT DENİZ ULUŞAR
- Konteyner liman operasyonlarının makine öğrenmesi yöntemleri ile analizi
Analysis of container port operations using machine learning methods
ÜSTÜN ATAK
Doktora
Türkçe
2022
Deniz Bilimleriİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
PROF. DR. YASİN ARSLANOĞLU
PROF. DR. TOLGA KAYA