Geri Dön

Utilizing query logs for data replication and placement in big data applications

Sorgu günlükleri kullanarak veri çoklama ve yerleştirme problemlerinin çözümü

  1. Tez No: 313550
  2. Yazar: ATA TÜRK
  3. Danışmanlar: PROF. DR. CEVDET AYKANAT
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 146

Özet

Günümüz hesaplama sistemlerinin işlemesi gereken veri miktarlarındakı artış ve hesaplama sistemleri altyapı ve ekonomileri sebebleri ile uygulamaların çoğunda yüksek seviyede paralleleştirme gerekmektedir. Bu paralleleştirme genellikle veri-paralel çözümlerle gercekleştirilir ki bu çözümler de efektif veri gruplama (partitioning) ve veri dağıtma (declustering) yöntemleri gerektirir. Veri gruplama ve daşıtma yöntemlerinin yanında, gerek kullanılabilirliği gerekse performansı arttırma adına veri çoklama yöntemleri de sıkça kullanılmaya başlanmıştır. Veri bölümleme ya da dağıtma ve veri çoklama problemleri genellikle iki farkli aşamada çözümlenmeye çalışılırlar. Bu tezdeki çalışmalar, veri bölüöleme/dağıtma ve veri çoklama problemlerinin tek bir aşamada yapılması sureti ile daha etkin çoklanarakbölümlenmiş/dağıtılmış sistemler elde edilmesi ? kri üzerine yoğunlaşmıştır. Bu amaçla, bölümleme sistemlerinde yaygın olarak kullanılan Fiduccia-Mattheyses (FM) yinelemeli iyileştirme algoritması çoklama işlemini de kapsayacak şekilde genişletilmiştir. Bu algoritma kullanılarak sorgu günlükleri kullanan veri tabanı uygulamalarının performansını arttıracak bir çoklamalı veri dağıtma sistemi önerilmiştir. Ayrica bu çoklamalı veri dağıtma sisteminin sorgu desenlerinde değişimler, yeni sunucu ekleme ya da çıkarma işlemleri gibi durumlar karşısında mümküm olduğunca az veri taşıması yaparak kendini adapte etmesini sağlayan genişletme ve ilaveler önerilmiştir. Daha sonra, çoklamalı bölümleme problemi için geliştirilen tek-aşamalı çoklamalı bölümleme aracı, yaygın olarak bilinen iki uygulama (kelime bazlı arama ve Twitter) üzerinde test edilmiştir. Elde edilen sonuçlar sorgu günlükleri kullanımının ve çoklama ile veribölümleme/dağıtma işlemlerinin tek aşamada yapılmasının parallel performansı arttırdıgını göstermektedir.

Özet (Çeviri)

The growth in the amount of data in todays computing problems and the level of parallelism dictated by the large-scale computing economics necessitates high-level parallelism for many applications. This parallelism is generally achieved via data-parallel solutions that require effective data clustering (partitioning) or declustering schemes (depending on the application requirements). In addition to data partitioning/declustering, data replication, which is used for data availability and increased performance, has also become an inherent feature of many applications. The data partitioning/declustering and data replication problems are generally addressed separately. This thesis is centered around the idea of performing data replication and data partitioning/declustering simultenously to obtain replicated data distributions that yield better parallelism. To this end, we utilize query-logs to propose replicated data distribution solutions and extend the well known Fiduccia-Mattheyses (FM) iterative improvement algorithm so that it can be used to generate replicated partitioning/declustering of data. For the replicated declustering problem, we propose a novel replicated declustering scheme that utilizes query logs to improve the performance of a parallel database system. We also extend our replicated declustering scheme and propose a novel replicated re-declustering scheme such that in the face of drastic query pattern changes or server additions/removals from the parallel database system, new declustering solutions that require low migration overheads can be computed. For the replicated partitioning problem, we show how to utilize an effective single-phase replicated partitioning solution in two well-known applications (keyword-based search and Twitter). For these applications, we provide the algorithmic solutions we had to devise for solving the problems that replication brings, the engineering decisions we made so as to obtain the greatest benefits from the proposed data distribution, and the implementation details for realistic systems. Obtained results indicate that utilizing query-logs and performing replication and partitioning/declustering in a single phase improves parallel performance.

Benzer Tezler

  1. Storage and access schemes for aggregate query processing on road networks

    Yol ağları üzerindeki topak sorgu işleme için depolama ve erişim planları

    ENGİN DEMİR

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. CEVDET AYKANAT

  2. Partitioning models for scaling distributed graph computations

    Dağıtık çizge hesaplamalarının ölçeklendirilmesi için bölümleme yöntemleri

    GÜNDÜZ VEHBİ DEMİRCİ

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVDET AYKANAT

  3. Hava araçları kokpitlerinde makine öğrenmesi tabanlı tahmine dayalı kullanıcı arayüzü

    Machine learning prediction based ui for aircraft cockpit

    BİLGE TOPAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  4. Utilizing query performance predictors for early termination in meta-search

    Meta-arama için sorgu performans tahmini yöntemleriyle erken sonuç oluşturma

    EMRE ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE

  5. Access 2.0 ile bir veritabanı uygulaması: Faturalama sistemi

    Başlık çevirisi yok

    BUKET ALTUNKÖK

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    DOÇ. DR. GAZANFER ÜNAL