Geri Dön

Improving the performance of Hadoop/Hive by sharing scan and computation tasks

Tarama ve hesaplama “işlerinin payla“ştırılmasıyla Hadoop/Hive üzerinde performans iyileş“tirimi

  1. Tez No: 338458
  2. Yazar: SERKAN ÖZAL
  3. Danışmanlar: DOÇ. DR. AHMET COŞAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

MapReduce zaman alan analitik sorguların büyük ölçekli veriler üzerinde toplu olarak işletilmesi için popüler bir yöntemdir. Çoklu sorguların eşzamanlı işletilmelerinde, tarama ve hesaplama işlemleri için birçok yöntem kullanılabilmektedir. Ortak kısımların sadece bir kere işletilmesi toplam i³lem süresini önemli ölçüde düşürebilmektedir. Buradan yola çıkarak, biz Hadoop üstünde çalışan açık kaynak kodlu SQL tabanlı dağıtık veri ambarı yönetim sistemi olan Hive framework'ü ile çalışan Çoklu Sorgu iyileştirimi (ÇS) yöntemi öneriyoruz. Bizim framework'ümüz, SharedHive, benzer kısımları bulunan HiveQL sorgularını ortak kısımların birlikte kullanılmasını sağlayarak genel HiveQL sorgularna dönüştürmektedir. Bu sayede toplam işletim süresinde önemli iyileşmeler görülebilmektedir. SharedHive ile ortak kısımları bulunan TPC-H sorgularında toplam işletim süresi olarak %20-90 arasında iyileştirme sağlanabilmektedir.

Özet (Çeviri)

MapReduce is a popular model of executing time-consuming analytical queries as a batch of tasks on large scale data. During simultaneous execution of multiple queries, many opportunities can arise for sharing scan and/or computation tasks. Executing common tasks only once can reduce the total execution time of all queries remarkably. Therefore, we propose to use Multiple Query Optimization (MQO) techniques to improve the overall performance of Hadoop Hive, an open source SQL-based distributed warehouse system based on MapReduce. Our framework, SharedHive, transforms a set of correlated HiveQL queries into new global queries that can produce the same results in remarkably smaller total execution times. It is experimentally shown that SharedHive outperforms the conventional Hive by %20-90 reduction, depending on the number of queries and percentage of shared tasks, in the total execution time of correlated TPC-H queries.

Benzer Tezler

  1. DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster

    İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme

    YOUSEF ALKHANAFSEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHİR ÇETİN AKINCI

  2. Mapreduce kullanarak RDFS üzerinde dağıtık çıkarsama

    Implementation of distributed RDFS reasoning

    YİĞİT ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL

  3. Improving the performance of YOLO-based detection algorithms for small object detection in UAV-taken images

    Küçük nesne tanıma üzerine kullanılan YOLO tabanlı nesne tanıma algoritmalarının iyileştirilmesi

    ÖYKÜ ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM KÖRPEOĞLU

    DR. ÖĞR. ÜYESİ SEDAT ÖZER

  4. Ağ trafiği analizinde IP itibarı kullanılarak makine öğrenmesi yöntemlerinin performanslarının arttırılması

    Improving the performance of machine learning methods using IP reputation in network traffic analysis

    FURKAN DANIŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKTO Karatay Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEMİH YUMUŞAK

  5. Elektroensefalografi ve yakın kızılötesi spektroskopi tabanlı hibrit model kullanarak beyin bilgisayar arayüzü sisteminin performansının arttırılması

    Improving the performance of brain computer interface system using electroencephalography and near infrared spectroscopy-based hybrid model

    EBRU ERGÜN

    Doktora

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiKaradeniz Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖNDER AYDEMİR