Improving the performance of Hadoop/Hive by sharing scan and computation tasks
Tarama ve hesaplama işlerinin paylaştırılmasıyla Hadoop/Hive üzerinde performans iyileştirimi
- Tez No: 338458
- Danışmanlar: DOÇ. DR. AHMET COŞAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 67
Özet
MapReduce zaman alan analitik sorguların büyük ölçekli veriler üzerinde toplu olarak işletilmesi için popüler bir yöntemdir. Çoklu sorguların eşzamanlı işletilmelerinde, tarama ve hesaplama işlemleri için birçok yöntem kullanılabilmektedir. Ortak kısımların sadece bir kere işletilmesi toplam i³lem süresini önemli ölçüde düşürebilmektedir. Buradan yola çıkarak, biz Hadoop üstünde çalışan açık kaynak kodlu SQL tabanlı dağıtık veri ambarı yönetim sistemi olan Hive framework'ü ile çalışan Çoklu Sorgu iyileştirimi (ÇS) yöntemi öneriyoruz. Bizim framework'ümüz, SharedHive, benzer kısımları bulunan HiveQL sorgularını ortak kısımların birlikte kullanılmasını sağlayarak genel HiveQL sorgularna dönüştürmektedir. Bu sayede toplam işletim süresinde önemli iyileşmeler görülebilmektedir. SharedHive ile ortak kısımları bulunan TPC-H sorgularında toplam işletim süresi olarak %20-90 arasında iyileştirme sağlanabilmektedir.
Özet (Çeviri)
MapReduce is a popular model of executing time-consuming analytical queries as a batch of tasks on large scale data. During simultaneous execution of multiple queries, many opportunities can arise for sharing scan and/or computation tasks. Executing common tasks only once can reduce the total execution time of all queries remarkably. Therefore, we propose to use Multiple Query Optimization (MQO) techniques to improve the overall performance of Hadoop Hive, an open source SQL-based distributed warehouse system based on MapReduce. Our framework, SharedHive, transforms a set of correlated HiveQL queries into new global queries that can produce the same results in remarkably smaller total execution times. It is experimentally shown that SharedHive outperforms the conventional Hive by %20-90 reduction, depending on the number of queries and percentage of shared tasks, in the total execution time of correlated TPC-H queries.
Benzer Tezler
- DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster
İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme
YOUSEF ALKHANAFSEH
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHİR ÇETİN AKINCI
- Mapreduce kullanarak RDFS üzerinde dağıtık çıkarsama
Implementation of distributed RDFS reasoning
YİĞİT ÇETİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN ABUL
- Improving the performance of YOLO-based detection algorithms for small object detection in UAV-taken images
Küçük nesne tanıma üzerine kullanılan YOLO tabanlı nesne tanıma algoritmalarının iyileştirilmesi
ÖYKÜ ŞAHİN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM KÖRPEOĞLU
DR. ÖĞR. ÜYESİ SEDAT ÖZER
- Ağ trafiği analizinde IP itibarı kullanılarak makine öğrenmesi yöntemlerinin performanslarının arttırılması
Improving the performance of machine learning methods using IP reputation in network traffic analysis
FURKAN DANIŞ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKTO Karatay ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEMİH YUMUŞAK
- Elektroensefalografi ve yakın kızılötesi spektroskopi tabanlı hibrit model kullanarak beyin bilgisayar arayüzü sisteminin performansının arttırılması
Improving the performance of brain computer interface system using electroencephalography and near infrared spectroscopy-based hybrid model
EBRU ERGÜN
Doktora
Türkçe
2023
Elektrik ve Elektronik MühendisliğiKaradeniz Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖNDER AYDEMİR