Geri Dön

Improving the performance of Hadoop/Hive by sharing scan and computation tasks

Tarama ve hesaplama “işlerinin payla“ştırılmasıyla Hadoop/Hive üzerinde performans iyileş“tirimi

  1. Tez No: 338458
  2. Yazar: SERKAN ÖZAL
  3. Danışmanlar: DOÇ. DR. AHMET COŞAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

MapReduce zaman alan analitik sorguların büyük ölçekli veriler üzerinde toplu olarak işletilmesi için popüler bir yöntemdir. Çoklu sorguların eşzamanlı işletilmelerinde, tarama ve hesaplama işlemleri için birçok yöntem kullanılabilmektedir. Ortak kısımların sadece bir kere işletilmesi toplam i³lem süresini önemli ölçüde düşürebilmektedir. Buradan yola çıkarak, biz Hadoop üstünde çalışan açık kaynak kodlu SQL tabanlı dağıtık veri ambarı yönetim sistemi olan Hive framework'ü ile çalışan Çoklu Sorgu iyileştirimi (ÇS) yöntemi öneriyoruz. Bizim framework'ümüz, SharedHive, benzer kısımları bulunan HiveQL sorgularını ortak kısımların birlikte kullanılmasını sağlayarak genel HiveQL sorgularna dönüştürmektedir. Bu sayede toplam işletim süresinde önemli iyileşmeler görülebilmektedir. SharedHive ile ortak kısımları bulunan TPC-H sorgularında toplam işletim süresi olarak %20-90 arasında iyileştirme sağlanabilmektedir.

Özet (Çeviri)

MapReduce is a popular model of executing time-consuming analytical queries as a batch of tasks on large scale data. During simultaneous execution of multiple queries, many opportunities can arise for sharing scan and/or computation tasks. Executing common tasks only once can reduce the total execution time of all queries remarkably. Therefore, we propose to use Multiple Query Optimization (MQO) techniques to improve the overall performance of Hadoop Hive, an open source SQL-based distributed warehouse system based on MapReduce. Our framework, SharedHive, transforms a set of correlated HiveQL queries into new global queries that can produce the same results in remarkably smaller total execution times. It is experimentally shown that SharedHive outperforms the conventional Hive by %20-90 reduction, depending on the number of queries and percentage of shared tasks, in the total execution time of correlated TPC-H queries.

Benzer Tezler

  1. DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster

    İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme

    YOUSEF ALKHANAFSEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHİR ÇETİN AKINCI

  2. Mapreduce kullanarak RDFS üzerinde dağıtık çıkarsama

    Implementation of distributed RDFS reasoning

    YİĞİT ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL

  3. Doğrudan sodyum borhidrürlü yakıt hücre bileşenlerinin modifikasyonu ile hücre performansının artırılması

    Improving the performance of direct sodium borohydride fuel cell with components modification

    MERVE GÖRDESEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Kimya MühendisliğiGazi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. BEKİR ZÜHTÜ UYSAL

    DOÇ. DR. AYŞE ELİF SANLI

  4. Improving the performance of 1D vertex parallel GNN training on distributed memory systems

    Dağıtık bellek sistemlerinde 1D düğüm paralel GNN eğitiminin performansının iyileştirilmesi

    KUTAY TAŞCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVDET AYKANAT

  5. Çoklu robot sistemlerinde robotlar arası haberleşme ve işbirliği kullanılarak arama verimliliğinin artırılması

    Improving the performance of cooperative search by using communication and coordinaton in multi robot systems

    ÖMER ÇAYIRPUNAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    DOÇ. DR. VEYSEL GAZİ

    YRD. DOÇ. DR. BÜLENT TAVLI