Dağıtık hadoop kümelerinde yeni eşle/indirge programlama algoritması modeli
New map/reduce programming algorithm model in distributed hadoop clusters
- Tez No: 887213
- Danışmanlar: PROF. DR. RESUL KARA
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Düzce Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 85
Özet
Büyük veriler veri aktarma maliyetinden dolayı genellikle üretildiği konumlara yakın yerlere depolanırlar. Depolanan bu veriler işlenmek için tek bir konuma taşınır veya bulunduğu konumda işlenirler. Literatürde veri işlemek için farklı yöntemlere rastlamak mümkündür. Bu çalışmada veri işlemek için yeni bir yöntem sunulmuştur. Önerilen yöntemde veri işleme sürecini tamamlayan farklı donanımlara sahip veri merkezlerinin (DC) kendi aralarında veri karıştırma (shuffling) yapması sağlanmıştır. DC'lerin indirge (reduce) fonksiyonunun veri işleme maliyetinin hesaplanması için test ortamında elde edilen veriler ile polinomal regresyon modeli oluşturulmuş ve karar sürecinde bu modelden elde edilen katsayılar kullanılmıştır. Karıştırma yapılacak anahtar/değer çiftlerini, konumlarını dikkate alarak, DC'lerin maliyetlerine göre dağıtılmıştır. DC'ler arasında karıştırma için, DC'lerin tümünün işini bitirmesi beklenmez. Böylelikle tüm DC'lerin aynı anda karıştırma yaptıklarındaki hem karıştırma hem de işlenen veri hacmi azalmıştır. Önerilen yöntemin performansı literatürdeki 4 farklı yöntemle karşılaştırılmıştır. Sonuç olarak bu çalışma veri boyutunda en yakın örneğinden %15 daha az karıştırma verisi oluşturmuştur.
Özet (Çeviri)
Big data are often stored close to the locations where they are generated, owing to the cost of data transfer. These stored data are moved to a single location for processing or processed at that location. In the literature, it is possible to find different methods for processing data in distributed datacenters. In this study, we present a new method for data processing called GSelf-MapReduce. In the proposed method, shuffling is performed among heterogeneous datacenter (DC) that complete the data-processing process. To calculate the data processing cost of the reduced function of the DCs, a polynomial regression model was created using the data obtained in the test environment, and the coefficients obtained from this model were used in the decision process. The key/value pairs to be shuffled are distributed according to the cost of the DCs, considering their location. Because the data to be shuffled between DCs do not wait for all DCs to complete their jobs, the cost is reduced both in terms of the data to be moved and the data to be processed. The performance of the proposed method was compared with that of four different distributed data processing methods in the literature. As a result, this work generates 15% less shuffled data than the closest work.
Benzer Tezler
- Building of a linux based lightweight open source big data distribution
Linux tabanlı hafif ve açık kaynak kodlu büyük veri dağıtımı gerçeklemesi
MUHAMMED NUMAN İNCE
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MELİH GÜNAY
- Büyük sosyal medya verisinden mekânsal ve mekân-zamansal önemli lokasyonlar keşfi ve bulut bilişim sistemlerine uyarlanması
Spatial and spatio-temporal important locations discovery of big social media data and application on cloud computing systems
AHMET ŞAKİR DOKUZ
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. METE ÇELİK
- DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster
İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme
YOUSEF ALKHANAFSEH
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHİR ÇETİN AKINCI
- Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu KomutanlığıBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
- Mapreduce kullanarak RDFS üzerinde dağıtık çıkarsama
Implementation of distributed RDFS reasoning
YİĞİT ÇETİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN ABUL