Geri Dön

Dağıtık hadoop kümelerinde yeni eşle/indirge programlama algoritması modeli

New map/reduce programming algorithm model in distributed hadoop clusters

  1. Tez No: 887213
  2. Yazar: EMİN ŞEŞEN
  3. Danışmanlar: PROF. DR. RESUL KARA
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 85

Özet

Büyük veriler veri aktarma maliyetinden dolayı genellikle üretildiği konumlara yakın yerlere depolanırlar. Depolanan bu veriler işlenmek için tek bir konuma taşınır veya bulunduğu konumda işlenirler. Literatürde veri işlemek için farklı yöntemlere rastlamak mümkündür. Bu çalışmada veri işlemek için yeni bir yöntem sunulmuştur. Önerilen yöntemde veri işleme sürecini tamamlayan farklı donanımlara sahip veri merkezlerinin (DC) kendi aralarında veri karıştırma (shuffling) yapması sağlanmıştır. DC'lerin indirge (reduce) fonksiyonunun veri işleme maliyetinin hesaplanması için test ortamında elde edilen veriler ile polinomal regresyon modeli oluşturulmuş ve karar sürecinde bu modelden elde edilen katsayılar kullanılmıştır. Karıştırma yapılacak anahtar/değer çiftlerini, konumlarını dikkate alarak, DC'lerin maliyetlerine göre dağıtılmıştır. DC'ler arasında karıştırma için, DC'lerin tümünün işini bitirmesi beklenmez. Böylelikle tüm DC'lerin aynı anda karıştırma yaptıklarındaki hem karıştırma hem de işlenen veri hacmi azalmıştır. Önerilen yöntemin performansı literatürdeki 4 farklı yöntemle karşılaştırılmıştır. Sonuç olarak bu çalışma veri boyutunda en yakın örneğinden %15 daha az karıştırma verisi oluşturmuştur.

Özet (Çeviri)

Big data are often stored close to the locations where they are generated, owing to the cost of data transfer. These stored data are moved to a single location for processing or processed at that location. In the literature, it is possible to find different methods for processing data in distributed datacenters. In this study, we present a new method for data processing called GSelf-MapReduce. In the proposed method, shuffling is performed among heterogeneous datacenter (DC) that complete the data-processing process. To calculate the data processing cost of the reduced function of the DCs, a polynomial regression model was created using the data obtained in the test environment, and the coefficients obtained from this model were used in the decision process. The key/value pairs to be shuffled are distributed according to the cost of the DCs, considering their location. Because the data to be shuffled between DCs do not wait for all DCs to complete their jobs, the cost is reduced both in terms of the data to be moved and the data to be processed. The performance of the proposed method was compared with that of four different distributed data processing methods in the literature. As a result, this work generates 15% less shuffled data than the closest work.

Benzer Tezler

  1. Building of a linux based lightweight open source big data distribution

    Linux tabanlı hafif ve açık kaynak kodlu büyük veri dağıtımı gerçeklemesi

    MUHAMMED NUMAN İNCE

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MELİH GÜNAY

  2. Büyük sosyal medya verisinden mekânsal ve mekân-zamansal önemli lokasyonlar keşfi ve bulut bilişim sistemlerine uyarlanması

    Spatial and spatio-temporal important locations discovery of big social media data and application on cloud computing systems

    AHMET ŞAKİR DOKUZ

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. METE ÇELİK

  3. DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster

    İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme

    YOUSEF ALKHANAFSEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHİR ÇETİN AKINCI

  4. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  5. Mapreduce kullanarak RDFS üzerinde dağıtık çıkarsama

    Implementation of distributed RDFS reasoning

    YİĞİT ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL