Improving the efficiency of search engines: Strategies for focused crawling, searching, and index pruning

Arama motorlarının verimliliğini artırmak: Odaklanmış tarama, arama ve indeks budama stratejileri

PDF İndir

Tez No: 246602
Yazar: İSMAİL SENGÖR ALTINGÖVDE
Danışmanlar: PROF. DR. ÖZGÜR ULUSOY
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 189

Özet

Arama motorları, Ağ üzerinde bol miktarda bulunan metin verilerini getirmenin birincil aracıdırlar. Standart bir arama motoru üç temel görevi yerine getirir: Ağ tarama, indirilen içeriği indeksleme ve bu indeks üzerinde sorgu işleme. Bu işler için verimli yöntemler geliştirmek önemli bir araştırma konusudur. Bu tezde, bir arama motorunun yaptığı bu üç temel işe ilişkin verimli stratejiler önerilmektedir. Önerilen yöntemlerin çoğu, en geniş anlamıyla belge gruplarının (ki bunlar otomatik olarak elde edilmiş belge demetleri/sınıfları ya da elle düzenlenmiş kategorizasyonlar olabilir) halihazırda bulunduğu veya etkin bir şekilde elde edilebileceği durumlarda uygulanabilir. Ek olarak, sorgu görünümlerini kullanan bir statik indeks budama stratejisi de önerilmektedir.Ağ tarama işi için, bir konu sınıflandırmasındaki belge sınıfları arasındaki kuralları kullanan kural-tabanlı bir odaklanmış tarama stratejisi önerilmiştir. Bu kurallar, iki sınıf arasındaki birbirlerine Ağ bağlantısı verme olasılığını temsil ederler. Önerilen kural-tabanlı tarayıcı, bir yol üzerindeki aranan konuya ilişkisiz sayfaları takip ederek konuyla ilişkili bir sayfaya ulaşabilmekte (yani tünelleme yapabilmekte) ve böylece aranan konuda daha yüksek oranda sayfa bulabilmektedir.İndeksleme ve sorgu işleme kapsamındaysa belge gruplarını (demetler veya kategoriler) kullanarak arama yapma işine yoğunlaşılmıştır. Geleneksel demet-tabanlı getirme (DTG) senaryosunda, öncelikle verilen bir serbest metin sorgusuna en benzer belge demetleri belirlenir, sonra da bu demetlerdeki belgeler arasından sorgu yanıtı olanlar seçilip sıralanarak sunulur. Verimli DTG için, ilk olarak bazı alternatif sorgu işleme yöntemleri belirlenmiş ve değerlendirilmiştir. Sonra, yeni bir indeks organizasyonu olarak demet-atlayan ters indeks yapısı (DA-TİY) tanıtılmıştır. Bu yeni yapıyı kullanan DTG'nin klasik indeks kullanan önceki stratejilere göre daha başarılı olduğu çeşitli veri kümeleri ve arama parametreleri kullanılarak gösterilmiştir. Bu tezde DA-TİY'in sorgu-demet benzerliğini hesaplamakta kullanılacak tüm bilgileri içeren daha geliştirilmiş bir hali de önerilmektedir. Bahsedilen indeks yapısı üzerinde çalışan artırımlı-DTG yaklaşımı tanıtılmakta ve farklı senaryolar için arama verimliliği gösterilmektedir.Son olarak, arama motoru sorgu kütüklerinden elde edilen sorgu görünümleri kullanılarak daha başarılı statik indeks budama yöntemleri geliştirilmiştir. Bu da yine arama motorlarındaki indeksleme işiyle ilgilidir. Sorgu görünümü yaklaşımı literatürde bulunan çeşitli budama algoritmalarına ve bunların bizim tarafımızdan önerilen bazı başka biçimlerine yerleştirilmiştir. Sorgu görünümü tabanlı stratejilerin, mevcut diğer teknikleri hem“ve”hem de“veya”cinsi sorgu işleme durumlarında sorgu cevap kalitesi bakımından önemli ölçüde geçtiği gösterilmiştir.

Özet (Çeviri)

Search engines are the primary means of retrieval for text data that is abundantly available on the Web. A standard search engine should carry out three fundamental tasks, namely; crawling the Web, indexing the crawled content, and finally processing the queries using the index. Devising efficient methods for these tasks is an important research topic. In this thesis, we introduce efficient strategies related to all three tasks involved in a search engine. Most of the proposed strategies are essentially applicable when a grouping of documents in its broadest sense (i.e., in terms of automatically obtained classes/clusters, or manually edited categories) is readily available or can be constructed in a feasible manner. Additionally, we also introduce static index pruning strategies that are based on the query views.For the crawling task, we propose a rule-based focused crawling strategy that exploits interclass rules among the document classes in a topic taxonomy. These rules capture the probability of having hyperlinks between two classes. The rule-based crawler can tunnel toward the on-topic pages by following a path of off-topic pages, and thus yields higher harvest rate for crawling on-topic pages.In the context of indexing and query processing tasks, we concentrate on conducting efficient search, again, using document groups; i.e., clusters or categories. In typical cluster-based retrieval (CBR), first, clusters that are most similar to a given free-text query are determined, and then documents from these clusters are selected to form the final ranked output. For efficient CBR, we first identify and evaluate some alternative query processing strategies. Next, we introduce a new index organization, so-called cluster-skipping inverted index structure (CS-IIS). It is shown that typical-CBR with CS-IIS outperforms previous CBR strategies (with an ordinary index) for a number of datasets and under varying search parameters. In this thesis, an enhanced version of CS-IIS is further proposed, in which all information to compute query-cluster similarities during query evaluation is stored. We introduce an incremental-CBR strategy that operates on top of this latter index structure, and demonstrate its search efficiency for different scenarios.Finally, we exploit query views that are obtained from the search engine query logs to tailor more effective static pruning techniques. This is also related to the indexing task involved in a search engine. In particular, query view approach is incorporated into a set of existing pruning strategies, as well as some new variants proposed by us. We show that query view based strategies significantly outperform the existing approaches in terms of the query output quality, for both disjunctive and conjunctive evaluation of queries.

Benzer Tezler

Tez No
414355
Experimental investigation of hydroxy gas enriched natural gas as an alternative fuel (HHO-CNG) in pilot injection diesel engines
Hidroksi gaz ile zenginleştirilmiş doğalgazın (HHO-CNG) pilot püskürtmeli dizel motorlarda alternatif yakıt olarak kullanılması
HÜSEYİN TURAN ARAT
Doktora
İngilizce
2016
Enerji Çukurova Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. KADİR AYDIN
Tez No
541304
Investigation of effect of novel technologies' implementation to future internal combustion engines
Yeni teknolojilerin geleceğin içten yanmalı motorlarına uyarlanmasının etkilerinin incelenmesi
ANIL ALAGÖZ
Yüksek Lisans
İngilizce
2018
Enerji İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HİKMET ARSLAN
Tez No
584846
Advanced methods for result and score caching in web search engines
Web arama motoru sonuç ve skor önbellekleri için ileri yöntemler
ERMAN YAFAY
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
Tez No
949417
HCNG yakıtlı benzin motorunda fraktal yanma modeli ile simülasyon ve parametrik optimizasyon çalışması
Simulation and parametric optimization study with fractal combustion model in HCNG fuelled gasoline engine
EREN ÖZDEMİR
Yüksek Lisans
Türkçe
2025
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALPER TOLGA ÇALIK
Tez No
421065
A methodology for energy optimization of buildings considering simultaneously building envelope HVAC and renewable system parameters
Binalarda yapı kabuğu, mekanik sistemler ve yenilenebilir enerji sistemleri parametrelerinin eş zamanlı enerji optimizasyonu için bir yöntem
MELTEM BAYRAKTAR
Doktora
İngilizce
2015
Enerji İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. AYŞE ZERRİN YILMAZ
PROF. DR. MARCO PERINO

Geri Dön