Geri Dön

Estimating the selectivity of Sql Like queries

Sql Like sorgularının seçiciliğini tahmin etme

  1. Tez No: 498110
  2. Yazar: MEHMET AYTİMUR
  3. Danışmanlar: YRD. DOÇ. DR. ALİ ÇAKMAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İstanbul Şehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Metin tabanlı verilerin miktarında internet kaynaklarının da etkisiyle gözlemlenen dramatik artış nedeniyle, bu tür verileri esnek arama kalıpları ile sorgulama giderek yaygınlaşmaktadır. İlişkisel veritabanları, SQL LIKE operatörünü kullanarak esnek filtrelerle metinsel verileri sorgulamaya izin vermektedir (örn., LIKE“Sub%”,“Sub”ile başlayan tüm satırlar ile eşleşir). Metinsel verilerin büyük boyutlu olmasından dolayı, bu tür sorguları en verimli şekilde yürütmek, veritabanı performansı için oldukça kritik önem taşır. Verilen bir LIKE sorgusu için en verimli yürütme planını oluştururken, sorgu eniyileyici, sorguda yer alan esnek sorgu yüklemleri için seçicilik tahminine ihtiyaç duyar. Bu tez çalışmasında, bir metin verisi sütundaki veri dağılımını özetlemek üzere yeni bir desen tabanlı histogram yapısı kullanan, SPH ve P-SPH isimleri altında iki yeni algoritma geliştirilmiştir. Daha spesifik olarak, önce bir metin veritabanındaki dizi motifleri (SPH) veya konumsal dizi motifleri (P-SPH) hesaplanır. Sonra bu motiflerden özel bir histogram oluşturulur. Sorgu eniyileme sürecinde, bir LIKE sorgu yükleminin seçiciliğini tahmin etmek için bu histogramlar kullanılır. DBLP bibliyografya verileri üzerinde yapılan deney sonuçları, önerdiğimiz tekniklerin, genel LIKE ifadeleri için literatürdeki son teknikten daha az tahmin hatasına sahip olduğunu göstermektedir. Dahası , önerdiğimiz histogram bazlı teknikler geçmişte önerilen en gelişmiş teknikten iki kat daha az hafıza ve bir kat daha az zaman gerektirir.

Özet (Çeviri)

With the dramatic increase in the amount of the text-based data which commonly contains misspellings and other typos, querying such data with flexible search patterns becomes more and more commonplace. Relational databases support SQL LIKE operator to allow searching with a particular wild-card predicate (e.g., LIKE“Sub%”, which matches all strings starting with“Sub”). Due to large size of text data, executing such queries in the most optimal way is quite critical for database performance. While building the most efficient execution plan for a LIKE query, the query optimizer requires the selectivity estimate of the corresponding flexible wild-card query predicate(s). To this end, we propose novel algorithms to estimate the selectivity of LIKE query predicates. We first introduce SPH (Sequential Pattern-based Histogram) algorithm that is based on a new type of pattern-based histogram structure to summarize the data distribution in a particular text column. More specifically, we first mine sequential patterns in a given string database, and then construct a special histogram out of the mined patterns offline, i.e., before query processing starts. Then, during query optimization time, pattern-based histograms are exploited to estimate the selectivity of a LIKE predicate. The experimental results on a real dataset from DBLP show that the proposed techniques outperform the state of the art for generic LIKE queries like %s1%s2%...%sn% where si represents one or more characters. What is more, the proposed histogram structure requires more than two orders of magnitude smaller memory space, and the estimation time is almost an order of magnitude less in comparison to the state of the art. Next, we introduce another LIKE query selectivity estimation algorithm, called P-SPH. P-SPH extends SPH in three distinct ways: (i) it extends regular sequence patterns into more specific positional sequence patterns, and use them in its histograms, (ii) it introduces a slider-based more flexible matching scheme, and (iii) it employs an information-theoretic redundant pattern elimination mechanism. We experimentally demonstrate that P-SPH further improves the accuracy of SPH at the expense of using more memory.

Benzer Tezler

  1. Farklı ortamlardan (kültür ve doğa) yakalanan kupes (Boops boops L, 1758) balığı bireylerinin vücut şekilleri üzerindeki incelemeler

    Investigations on body forms of bogue (Boops boops L, 1758) individuals captured different environments (culture and nature)

    GONCA DEMİRKESEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Balıkçılık TeknolojisiEge Üniversitesi

    Su Ürünleri Avlama ve İşleme Teknolojisi Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ULAŞ

  2. Hafif olefin üretimi için destekli demir temelli fıscher tropsch katalizörleri üzerinde bir kinetik çalışma ve model analizi

    A kinetic study and model analysis on supported iron based fischer-tropsch catalysts for light olefin production

    KEREM BÜLBÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER SARIOĞLAN

    DR. ABDULLAH Z. TURAN

  3. Ege Denizi uluslararası suları demersal trol balıkçılığında Fas Mercanı (Dentex maroccanus), derin su pembe karidesi (Parapenaeus longirostris) ve istavrit (Trachurus trachurus) için rombik ve kare gözlü torbaların boy seçiciliği

    Size selectivity of diamond and square mesh codends for Morocco Dentex (Dentex maroccanus), deepwater rose shrimp (Parapenaeus longirostris) and Atlantic horse mackerel (Trachurus trachurus) in the international waters of Aegean Sea demersal trawl fishery

    MAHMUT BELLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Su Ürünleriİzmir Katip Çelebi Üniversitesi

    Su Ürünleri Ana Bilim Dalı

    YRD. DOÇ. DR. HAKKI DERELİ

  4. Preterm yenidoğanda karboksihemoglobin düzeyleri ile indirekt hiperbilirubinemi arasındaki ilişki

    Başlık çevirisi yok

    YASEMİN FUNDA KORKMAZ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Çocuk Sağlığı ve HastalıklarıAkdeniz Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    DOÇ. DR. HAKAN ONGUN

  5. Emeklilik yatırım fonları ve menkul kıymet yatırım fonlarının çeşitli yöntemlerle karşılaştırmalı performanslarının analizi ve fon yöneticilerinin zamanlama yetenekleri

    Analysis of the comparative performances of pension mutual funds and securities mutual funds by various methods and timing abilities of fund managers

    YAHYA SÖNMEZ

    Doktora

    Türkçe

    Türkçe

    2022

    İşletmeErciyes Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. LEVENT ÇITAK