Geri Dön

Hadoop çatısının bulut ortamında gerçeklenmesi ve başarım analizi

Hadoop framework implementation and performance analysis on cloud

  1. Tez No: 614778
  2. Yazar: GÖKSU ZEKİYE ÖZEN
  3. Danışmanlar: DOÇ. DR. RAYIMBEK SULTANOV
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Büyük veri, Hadoop, bulut, MapReduce, kıyaslama araçları, Big data, Hadoop, cloud computing, MapReduce, benchmarking tools
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 54

Özet

Hadoop çatısı, büyük veriyi işlemede, işlenecek verinin düğüm öbekleri üzerinde dağıtılması, işlenmesi ve tekrar birleştirilerek anlamlı hale getirilmesi için MapReduce programlama paradigmasını kullanır. MapReduce, geniş bilgisayar öbekleri üzerinde barındırılan büyük verinin işlenmesinde kullanılan tekniklerden biridir. Bu yöntemde map aşamasında işler daha küçük parçalara ayrılır ve düğümlere dağıtılarak işlenir. Reduce aşamasında ise işlenen iş parçacıkları birleştirilerek sonuç elde edilir. İşlerin parçalanması, düğümlere dağıtılması, eş zamanlı olarak yapılan iş sayısı ve öbekteki düğüm sayısı gibi parametreler, işlerin tamamlanma süresine etki etmektedir. Bu çalışmanın amacı bir öbek üzerinde çalışan, düğüm, map ve reduce iş parçacıklarının sayısının Hadoop çatısının başarımını nasıl etkilediğini tespit etmektir. Bu amaçla 10 düğümlü bir öbek üzerinde Hadoop çatısı kurularak Piestimator, Grep, Teragen, Terasort kıyaslama araçları yardımıyla farklı düğüm, map ve reduce sayıları kullanılarak deneyler gerçekleştirilmiştir. Hadoop çatısı altında hazır gelen kıyaslama araçları ile gerçekleştirilen deneylerin sonucunda uygulamalar işlemci kullanım durumlarına göre işlemciyi az kullanan ve yoğun kullanan uygulamalar şeklinde sınıflandırılmıştır. İşlemciyi az kullanan uygulamalarda düğüm, map ve reduce sayısının artırılması işin verimliliğini artırmadığı gibi sistem kaynaklarını gereksiz yere kullanarak, iş için harcanan zamanın artmasına neden olmuştur. Bu nedenle işlemciyi az kullanan uygulamalarda düğüm, map ve reduce sayısı en az seçilmesi, işlemciyi yoğun kullanan uygulamalarda ise iş parçacıklarının işlendiği aşamaya göre map ya da reduce sayısının, düğümlerdeki toplam CPU sayısı kadar seçilmesi iş için harcanan zamanın eniyilemesi olarak bulunmuştur.

Özet (Çeviri)

Hadoop framework uses MapReduce programming paradigm to process big data by distributing data across a cluster and aggregating. MapReduce is one of the methods used to process big data hosted on large clusters. In this method, jobs are processed by dividing into small pieces and distributing over nodes. Parameters such as distributing method over nodes, the number of jobs held in a parallel fashion and the number of nodes in the cluster affect the execution time of jobs. Aim of this paper is to determine how number of nodes, maps and reduces affect the performance of Hadoop framework on a cloud environment. For this purpose, tests were carried out on a Hadoop cluster with 10 nodes hosted on a cloud environment by running PiEstimator, Grep, Teragen and Terasort benchmarking tools on it. These benchmarking tools available under Hadoop framework are classified as CPU-intensive and CPU-light applications as a result of tests. In CPU-light applications; increasing number of nodes, maps and reduces do not improve efficiency of these applications, even they cause increase of time spent on jobs by using system resources unnecessarily. Therefore, in CPU-light applications, selecting number of nodes, maps and reduces as minimum are found as the optimization of time spent on a process. In CPU-intensive applications, selecting number of maps or reduces equal to total number of CPUs on a cluster are found as the optimization of time spent on a process.

Benzer Tezler

  1. Biyolojik veritabanlarında etkin benzerlik hesaplama

    Effective similarity calculation in biological databases

    ARDA SÖYLEV

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL

  2. Lexicon based opinion mining on twitter data by using hadoop

    Hadoop kullanarak twitter verileri üzerindeki görüş madenciliği tabanlı veri sözlüğü

    MOHAMMED RAAED MAHMOOD ALKSSO

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilim ve TeknolojiÇankaya Üniversitesi

    Matematik Ana Bilim Dalı

    Assist. Prof. Dr. ABDÜL KADİR GÖRÜR

  3. HADOOP/MapReduce teknolojisi kullanılarak hızlı tüketim sektöründe büyük veri analizi

    Big data analysis in fast mooving consumer sector by using HADOOP/MapReduce technology

    SERDAR ÇETİNKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. FATİH KELEŞ

  4. Hadoop için heterojen yük dengeleme algoritması geliştirilmesi

    Development of a heterogeneous load balancing algorithm for Hadoop

    ERKİN ALP GÜNEY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ŞEBNEM BORA

  5. HADOOP kullanarak meteoroloji verilerinden bir iklim değişimi eğilim analizi

    A climate change trend analysis from meteorological data using HADOOP

    MUSTAFA KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Elektronik ve Bilgisayar Sistemleri Eğitimi Ana Bilim Dalı

    PROF. DR. TUNCAY AYDOĞAN