Geri Dön

A high performance CPU-GPU database for streaming data analysis

Akış veri analizi için yüksek başarımlı CPU-GPU veritabanı yönetim sistemleri

  1. Tez No: 642105
  2. Yazar: ANES ABDENNEBI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ KAMER KAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Günümüzde Büyük Veri olarak bilinen verilerin artan hacmi ve hızı, arastırmacıları, analistleri ve sirketleri veritabanı yönetim sistemlerini saglam, ölçeklenebilir, ve veri ile sorunsuz bir sekilde uyum saglayabilecek sekilde olusturmaya tesvik etmektedir. Öte yandan, Merkezi Islem Birimleri olan geleneksel islem birimlerini (PU), Grafik Islem Birimleri gibi ek bilgi islem gücüyle destekleme egilimi vardır. Arastırmacılar, veri yogunluklu uygulamalar için güçlü bilgi islem gücünün potansiyelini kabul etmektedirler. Son yıllarda, GPU'ları eldeki sisteme entegre ederek ve bunları farklı is yükü dagıtım algoritmalarına ve sorgu optimizasyon protokollerine göre kullanarak dikkat çekici DBMS'lerin olusturulmasına neden olan çesitli arastırma çalısmaları yapılmaktadır. Bu nedenle, Çevrimiçi Analitik Isleme altyapısını benimseyen DOLAP adını verdigimiz, hibrit, sütun tabanlı yüksek performanslı bir veritabanı yönetim sistemi olusturarak yeni bir yaklasımı ele almaya çalısıyoruz. Önceki hibrit DBMS'lerden farklı olarak, veritabanımız DOLAP, veriler üzerinde farklı islemler gerçeklestirirken (alma, kontrol etme, degistirme ve silme) Bloom filtreleri kullanmaktadır. Veritabanının veri kayıtlarını kontrol ederken gereksiz bellek erisimlerini önlemek için bu olasılıklı veri yapısını DOLAP'ta uygulamaktayız. Yaptıgımız deneylerde, toplam çalısma süresini %35 azaltarak kullanıslı oldugunu kanıtladık. CPU ve GPU olmak üzere farklı özelliklere sahip iki ana PU üzerinde sistemimizin verimliligini artırmak amacıyla, sorgunun yürütme birimine etkin bir sekilde karar veren bir is yükü dagıtım modeli tanımladık. Rastgele tabanlı, Algoritma tabanlı ve Gelistirilmis Algoritma tabanlı modeller olmak üzere 3 yük is dagıtım modeli önerdik. Testlerimizi Kaggle'dan alınan Chicago Taxi Driver veri kümesi üzerinde gerçeklestirdik, Bu deneylerde 3 yük dengeleme modeli arasında, iyilestirilmis algoritma tabanlı model, sorgu yükünü CPU'lar ve GPU'lar arasında iyi bir sekilde dagıtmadaki etkinligini kanıtlamakta ve neredeyse tümünde diger modellerden daha iyi performans göstermektedir.

Özet (Çeviri)

The outstanding spread of database management system architectures in the last decade, plus the increasing growth, volume, and velocity of the data, which is known nowadays as“Big Data”, are continuously urging researchers, businessmen and companies to build robust and scalable database management systems (DBMS) and improve them in a way they adjust smoothly with the evolution of data. On the other hand, there is a tendency to support the conventional processing units (PUs), which are the Central Processing Units (CPUs), with additional computing power like the emerging Graphical Processing Units (GPUs). The research community has accepted the potential of vigorous computing power for data-intensive applications. Several research studies were conducted in the last years that ended up in building remarkable DBMSs by integrating GPUs and using them according to different workload distribution algorithms and query optimization protocols. Thus, we try to address a new approach by building a hybrid columnar-based high performance database management system calling it DOLAP which adopts the Online Analytical Processing (OLAP) infrastructure. Distinctively from previous hybrid DBMSs, our database, DOLAP, depends on Bloom filters while performing different operations on data (ingesting, checking, modifying, and deleting). We implement this probabilistic data structure in DOLAP to prevent unnecessary memory accesses while checking the database's data records. This method is proved to be useful by reducing the total running times by 35%. Moreover, since there exist two main PUs with different characteristics, the CPU and GPU, a workload distribution model that effectively decides the query's executing unit at a time T should be defined to improve the efficiency of our system. Therefore, we suggested 3 load balancing models, the Random-based, Algorithm-based and the Improved Algorithmbased models. We run our tests on the Chicago Taxi Driver dataset taken from Kaggle and among the 3 load balancing models, the improved algorithm-based model demonstrates its effectiveness in well distributing the query load between the CPUs and GPUs where it outperforms the other models in nearly all the test runs.

Benzer Tezler

  1. Load balancing by using machine learning in CPU-GPU heterogeneous database management system

    CPU-GPU heterojen veritabanı yönetim sisteminde makine öğrenmesi kullanarak iş dağıtımı

    ANIL ELAKAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERDİNÇ ÖZTÜRK

  2. Fast face detection and recognition on graphics processing units

    Grafik işlemciler üzerinde hızlı yüz saptama ve tanıma

    SALİH CİHAN TEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN

  3. Apache spark ve GPU'nun büyük veri analizinde kullanılması

    Using Apache spark and GPU on big data analysis

    MEHMET TURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiHarran Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET EMİN TENEKECİ

  4. Arduino MKR vidor 4000 kartı ile video görüntülerinin gerçek zamanlı olarak işlenmesi

    Real-time processing of video images with arduino MKR vidor 4000 board

    YASHAR YASSIN HAMEED

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiAtatürk Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TEVHİT KARACALI

  5. GPU-centric communication schemes: When CPUs take a back seat

    GPU-odaklı haberleşme sistemleri: CPU'ların arka koltuğa geçtiği zamanlar

    ISMAYIL ISMAYILOV

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. DİDEM UNAT ERTEN