Büyük veride HADOOP ve mapreduce uygulanması ve HDFS'ye alternatif dosya sistemi geliştirilmesi

Implementation of HADOOP and mapreduce in big data and alternative file system development for HDFS

PDF İndir

Tez No: 518467
Yazar: SALİHA GÜLSEN KESKİN
Danışmanlar: DR. ÖĞR. ÜYESİ ATİLLA ERGÜZEN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: Türkçe
Üniversite: Kırıkkale Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 120

Özet

Hadoop, dağıtılmış dosyalarda çok miktarda veri depolamayı sağlayan bir dosya sistemine, Hadoop Dağıtık Dosya Sistemine (HDFS) sahiptir ve iş yükünü ve depolamayı paralel hale getirerek hesaplamaları gerçekleştirmek ve büyük miktarda veri işlemek için MapReduce programlama modelini kullanmaktadır. Ayrıca hem bireylerin hem de kuruluşların büyük verileri kullanmaları için, herhangi bir veri depolama ve işleme tesislerine yatırım yapmayı ortadan kaldıran bulut bilişim teknolojisi de geliştirilmiştir. Bulut bilişim ihtiyaca göre ölçeklenebilen, anında kullanıma hazır hizmet sağlayıcılardan oluşan internet ortamını ifade etmektedir. Verilerin internet ortamında saklanması ve internet vasıtasıyla işlenmesi çeşitli güvenlik ve gizlilik sorunlarını gündeme getirmektedir. Bu tez kapsamında öncelikle büyük veri kavramı ayrıntılı olarak incelenmiştir. Daha sonra bir ana, üç bağımlı düğüm olarak dört düğüm ile bir hadoop kümesi oluşturulmuş ve kümenin performansı test edilmiştir. Düğüm, çoğaltma (replica), harita (map) ve indirgeme (reduce) sayısında, girdi dosyalarının ve HDFS blok boyutunda değişiklikler uygulanarak çeşitli testler yapılmıştır. Sonuç olarak, hadoopun büyük dosyaları işlemek için tasarlanan ve çok sayıda küçük dosya ile çalışırken performans sıkıntısı çeken, ayrıca kümeyi yöneten tek bir ana düğümle çalışan dosya sistemine sahip olduğu gözlemlenmiştir. Son olarak, buna alternatif bir sistem önerilmiştir. Bu sistem ile şifreleme teknikleri kullanılarak güvenlik sıkıntısı çözülmüş ve dosya yapılandırılmasında birden fazla blok boyutu kullanılarak küçük ve büyük dosyaların depolanması kolaylaştırılmıştır. Ayrıca sistem tek bir ana düğüme bağlı olmayıp birden fazla sunucu ile çalışmakta ve düğümsel problemi ortadan kaldırmaktadır.

Özet (Çeviri)

Hadoop has Hadoop Distributed File System, a file-system that allows you to store large amounts of data in distributed files and uses the MapReduce programming model to perform calculations by making workload and storage parallel and to process large amounts of data.In addition, cloud computing technology has been developed that removes investment in any data-storage and processing facilities for both individuals and organizations to use large amounts of data.Cloud computing refers to an internet environment consisting of ready-to-use service providers that can be scaled according to their needs.The storage of data on the internet and processing by means of internet brings various security and confidentiality problems.In this thesis firstly the concept of bigdata is examined in detail.Then, hadoop cluster with four nodes as one master and three slaves was created and the performance of the cluster was tested.Various tests have been done by applying changes in node, replica, map-reduce numbers and in different sizes with input files and HDFS block size.As a result, Hadoop has been observed to have file-system that is designed to handle large files and has performance bottlenecks when working with many small files, and also running on single main node that manages the cluster.Finally, alternative system has been proposed.With this system, security problem is solved by using encryption techniques and it is facilitated to store small and large files by using more than one block-size in file-configuration.In addition, the-system is not connected to single master-node but works with multiple servers and thus removes the node problem.

Benzer Tezler

Tez No
505664
Büyük veride makine öğrenmesi uygulaması
Machine learning application on big data
MUSTAFA VAHİT KESKİN
Yüksek Lisans
Türkçe
2018
İstatistik Yıldız Teknik Üniversitesi
Uygulamalı İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DOĞAN YILDIZ
Tez No
463038
Sentiment analysis and opinion mining from big social data using mapreduce and machine learning methods
Mapreduce ve makine öğrenmesi yöntemleri ile büyük sosyal veride duygu analizi ve fikir madenciliği
BANAN JAMIL AWRAHMAN AWRAHMAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLAL ALATAŞ
Tez No
450617
Büyük veri araçlarından Hadoop kullanarak veri madenciliği
Data mining using Hadoop big data tool
MEHMET UMUT SALUR
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Pamukkale Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEZAİ TOKAT
Tez No
545013
Die implementierung der hive-architektur in big data in einem virtuellen unternehmen
Büyük veride hive mimarisinin sanal bir firma üzerine uygulanması
MEHMET IŞIK
Yüksek Lisans
Almanca
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. DENİZ HERAND
Tez No
705730
Hadoop ile büyük veride kimliksizleştirme
Anonymization model with hadoop
İREM CİVELEK
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Milli Savunma Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED ALİ AYDIN

Geri Dön