Inverted index compression based on term and document identifier reassignment
Doküman numaralarını yeniden atama yolu ile ters indeks sıkıştırma
- Tez No: 177186
- Danışmanlar: PROF. DR. CEVDET AYKANAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 55
Özet
Ters indekslerin sıkıştırılması konusuna son yıllarda oldukça ilgi duyulmuştur. Ters indeks yapısında, her terim için bir döküman listesi tutulur. Ters indeksin sıkıştırılması, indeksin boyutunu azaltır ve bu da disk ulaşım süresini azaltacağından dolayı sorgu süresinin azalmasını sağlar.Son çalışmalarda, döküman numaralarının yeniden atanmasının, ters indeks sıkıştırılmasında oldukça fazla etkili olabileceği gösterilmiştir. Bu çalışmamızda, ters indekslerdeki terim ve döküman numaralarını, indeksin matris gösterimini köşegensel blok formuna dönüştürerek yeniden atamaya yarayan ve böylelikle sıkıştırma oranında oldukça fazla artış sağlayan bir yöntem öneriyoruz. Bu dönüşüm için sıkıştırma oranını %50'lere kadar artıran bir“row-net”hipergraf parçalama modeli kullanıyoruz. Bildiğimiz kadarıyla, bu yöntem bundan önce önerilen bütün yöntemlerden daha etkili sıkıştırma oranları sağlamaktadır.
Özet (Çeviri)
Compression of inverted indexes received great attention in recent years. An inverted index consists of lists of document identifiers, also referred as posting lists, for each term. Compressing an inverted index reduces the size of the index, which also improves the query performance due to the reduction on disk access times.In recent studies, it is shown that reassigning document identifiers has great effect in compression of an inverted index. In this work, we propose a noveltechnique that reassigns both term and document identifiers of an inverted index by transforming the matrix representation of the index into a block-diagonal form, which improves the compression ratio dramatically. We adapted row-net hypergraph-partitioning model for the transformation into block-diagonal form, which improves the compression ratio by as much as 50%. To the best of our knowledge, this method performs more effectively than previous inverted index compression techniques.
Benzer Tezler
- Evsel katı atıkların geoteknik özellikleri
Başlık çevirisi yok
AHMET ÖZDEMİR
Yüksek Lisans
Türkçe
1998
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. OĞUZ TAN
- Yerel öznitelikler kullanarak görüntü indeksleme ve eşleme
Image indexing and matching using local features
ONUR ÇALIKUŞ
Yüksek Lisans
Türkçe
2016
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- Silis dumanı içeren yüksek mukavemetli betonların enerji tutma kapasitelerinin artırılmasında çelik lif kullanımının etkisi
Başlık çevirisi yok
MEHMET TUNCAY FIRAT
- Comparison of baseline inverted index compression techniques by using a new document similarity removal method
Yeni bir belge benzerlik çıkarma metodu kullanılarak temel ters indeks sıkıştırma tekniklerinin karşılaştırılması
EREN ALP
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTED Üniversitesiİnteraktif Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. TOLGA KURTULUŞ ÇAPIN
DR. ÖĞR. ÜYESİ TAYFUN KÜÇÜKYILMAZ
- EPIIC:: a novel encoding pluggable lossless data compression algorithm
EPIIC:: kodlama eklenebilir yeni bir kayıpsız data sıkıştırma algoritması
TAYLAN İSMAİL DOĞAN
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. YUSUF SAHİLLİOĞLU