Geri Dön

Models and algorithms for parallel text retrieval

Paralel metin getirme için modeller ve algoritmalar

  1. Tez No: 180672
  2. Yazar: BERKANT BARLA CAMBAZOĞLU
  3. Danışmanlar: PROF.DR. CEVDET AYKANAT
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Search engine, parallel text retrieval, Web crawling, inverted indexpartitioning, query processing, text classification, hypergraph partitioning.iv
  7. Yıl: 2006
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 198

Özet

üOZET˙ ˙ ˙şË™PARALEL METIN GETIRME ICIN˙MODELLER VE ALGORITMALARBerkant Barla CambazoğlugBilgisayar Mühendisliği, Yü ksek Lisansu g uTez Yüneticisi: Prof. Dr. Cevdet AykanatoOcak, 2006Son on yılda arama motorları hayatımızla bütü nleşik bir hale gelmişlerdir. Aramauu s smotorları teknolojisi şu anda paralel metin getirmeye dayanmaktadır. Bir par-salel metin getirme sistemi temel olarak uş bileşenden oluşmaktadır: tarayıcı,üc s sindeksleyici ve sorgu işleyici. Tarayıcı bileşeni Ağ'da bulunan sayfaları bulmayı,s s g˙getirmeyi ve yerel bir metin ambarında saklamayı amaşlar. Indeksleme bileşenic ssaklanmış olan dü zensiz metinleri sorgulanabilir bir yapıya dünüştü rü r ki bu yapıs u o us u uşoğu zaman bir ters dizindir. Sorgu işleme bileşeni ise indekslenmiş işerik uzerindecg s s sc üaramayı gerşekleştirir. Bu tezde, etkin Ağ tarama ve sorgu işleme işin modellerc s g s cve algoritmalar onerilmiştir. Paralel Ağ tarama işin, işlemciler arası iletişim mik-ü s g c s starını en aza indiren ve işlemcilerin sayfa indirme isteklerinin sayısını ve saklamasyü klerini dengeleyen karma bir model ünerilmiştir. Ek olarak, metin ve kelimeu o sbazlı ters dizin bülü mleme işin modeller onerilmiştir. Metin bülü mlemeye dayalıou c ü s oumodelimizde saklama yü kü dengelenirken sorgu işleme sırasında karşılaşılacakuu s ssdisk erişim miktarı en aza indirilmektedir. Kelime bülü mlemeye dayalı mod-s ouelimizde ise yine saklama yü kü dengelenirken toplam iletişim hacmi en azauu sindirilmektedir. Bunlara ek olarak, sıralamaya dayalı metin getirme sistem-leri işin şok sayıda sorgu işleme algoritması uygulanmış ve değerlendirilmiştir.cc s s g süOnerilen algoritmalar 48 düğumlü bir PC kü mesi uzerinde şalışmakta olan deney-ug ü u u ü cssel paralel metin getirme sistemimiz Skynet uzerinde denenmiştir. Tezde ayrıcaü sgride uyarlanmış SE4SEE arama motorumuzun tasarım ve uygulama detay-sları tartışılmıştır. Pratikteki katkılarımız arasından, SE4SEE işinde kullanılans s cHarbinger metin sınıflandırma sistemi ve onerilen modellerde kullanılmak uzereü ügeliştirilen K-PaToH hiperşizge bülü mleme aracı sunulmuştur.s c ou sAnahtar süzcükler : Arama motoru, paralel metin getirme, Ağ tarama, ters dizinou gbülü mleme, sorgu işleme, metin sınıflandırma, hiperşizge bülü mleme.ou s c ouv

Özet (Çeviri)

ABSTRACTMODELS AND ALGORITHMS FORPARALLEL TEXT RETRIEVALBerkant Barla CambazoğlugPh.D. in Computer EngineeringSupervisor: Prof. Dr. Cevdet AykanatJanuary, 2006In the last decade, search engines became an integral part of our lives. The cur-rent state-of-the-art in search engine technology relies on parallel text retrieval.Basically, a parallel text retrieval system is composed of three components: acrawler, an indexer, and a query processor. The crawler component aims to lo-cate, fetch, and store the Web pages in a local document repository. The indexercomponent converts the stored, unstructured text into a queryable form, mostoften an inverted index. Finally, the query processing component performs thesearch over the indexed content. In this thesis, we present models and algo-rithms for efficient Web crawling and query processing. First, for parallel Webcrawling, we propose a hybrid model that aims to minimize the communicationoverhead among the processors while balancing the number of page download re-quests and storage loads of processors. Second, we propose models for document-and term-based inverted index partitioning. In the document-based partitioningmodel, the number of disk accesses incurred during query processing is minimizedwhile the posting storage is balanced. In the term-based partitioning model, thetotal amount of communication is minimized while, again, the posting storageis balanced. Finally, we develop and evaluate a large number of algorithms forquery processing in ranking-based text retrieval systems. We test the proposedalgorithms over our experimental parallel text retrieval system, Skynet, currentlyrunning on a 48-node PC cluster. In the thesis, we also discuss the design andimplementation details of another, somewhat untraditional, grid-enabled searchengine, SE4SEE. Among our practical work, we present the Harbinger text clas-sification system, used in SE4SEE for Web page classification, and the K-PaToHhypergraph partitioning toolkit, to be used in the proposed models.

Benzer Tezler

  1. How cryptographic implementations affect mobile agent systems

    Şifreleme gerçekleştirmelerinin gezgin aracı internet sistemlerini nasıl etkilediği

    İSMAİL ULUKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF. DR. EMİN ANARIM

  2. Text categorization based on semantic similarity with word2vector

    Word2vector ile semantik benzerliğe dayanan metin kategorizasyonu

    ATHER ABDULRAHEM MOHAMMEDSAED ALSAMURAI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR

  3. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Parallel text retrieval on PC clusters

    PC kümeleri üzerinde paralel metin erişimi

    AYTÜL ÇATAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVDET AYKANAT

  5. Mimari bir dilin biçim grameri analizi ve bilgisayar ortamında sunumu

    Başlık çevirisi yok

    EDA VELİBAŞOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Mimarlıkİstanbul Teknik Üniversitesi

    DOÇ.DR. GÜLEN ÇAĞDAŞ