Geri Dön

Page-to-processor assignment techniques for parallel crawlers

Paralel ağ tarayıcıları için sayfa atama yöntemleri

  1. Tez No: 184698
  2. Yazar: ATA TÜRK
  3. Danışmanlar: PROF. DR. CEVDET AYKANAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Parallel crawling, graph partitioning, hypergraph partitioning, pageassignment.iii
  7. Yıl: 2004
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

üOZETğ ˙şË™PARALEL AG TARAYICILARI ICIN SAYFA ATAMAü ˙YONTEMLERIAta Tü rkuBilgisayar Mü hendisliği, Yü ksek Lisansu g uTez Yüneticisi: Prof. Dr. Cevdet AykanatoEylü l, 2004uOn yıldan kısa bir sü re işerisinde, Web (World Wide Web), bir araştırma pro-uc sjesinden, toplumumuzun her yü zü nde etkili, kü ltü rel bir fenomene dünüşmüştü r.uu uu o us us u˙ s˙Internetin popü laritesindeki ve kullanımındaki artış, Internette bilgi aramayıusağlayan tekniklerin etkinliklerinde de bir artışa neden olmuştur. Ağ taramag s s gbu tü r tekniklerden birisidir. Bir ağ tarayıcı, genellikle arama motorlarını veu gağ depolarını beslemek işin Web sayfalarını indiren ve kaydeden bir programdır.g cBir ağ tarayıcısının faydalı olabilmesi işin, kısa bir sü re işerisinde yü ksek miktar-g c uc ularda bilgiyi tarayabilmesi gerekmektedir. Genellikle, etkin bir tarama işin gereklicolan yü ksek indirme hızlarına tek işlemcili sistemlerde erişilinemez. Bu yü zden,u s s ugü nü mü zdeki bü yü k caplı uygulamalar, ağ tarama problemini cozmek işin cokuu u uu ş g şü cşişlemcili paralel sistemleri kullanırlar. Paralel ağ tarama, eşit yü k dağıtımı ves g s u ghaberleşme hacminin ya da mesaj sayısının azaltılması gibi bilinen problemlerinsyanında, cakışmaların onlenmesi ve yü ksek kalitedeki sayfaların erken taranmasışs ü ugibi problemlerin de cozü mü nü gerektirir. Bu tez, ağ tarama işleminin par-şü u u u g salelleştirilmesi konuludur ve temel olarak ana katkısı paralel ağ tarayıcılarındas gsayfaların işlemcilere atanması işlemindedir. Bu tezde, cizge ve hiper-şizges s ş cmodellerini bülü mlemeye dayanan, iki yeni sayfa atama yüntemi onermekteyiz.ou o üYüntemlerimiz, toplam haberleşme hacmini ve toplam mesaj sayısını azaltırken,o sişlemci başına düşen depolama yü kü nü ve taranması gereken sayfa miktarını den-s s us uuugelemektedir. Tez sırasında onerdiğimiz modeller uygulamaya dünüştü rü lmüş veü g o us u u usteorik yaklaşımlarımızın doğruluğu deneysel sonuşlarla kanıtlanmıştır. Ayrıcas g g c sonerilen yüntemleri kullanan etkin bir ağ tarama programı yazılmıştır.ü o g sAnahtar süzcükler : Paralel ağ tarama, cizge bülü mleme, hiper-şizge bülü mleme,ou g ş ou c ousayfa atama.iv

Özet (Çeviri)

ABSTRACTPAGE-TO-PROCESSOR ASSIGNMENT TECHNIQUESFOR PARALLEL CRAWLERSAta Tü rkuM.S. in Computer EngineeringSupervisor: Prof. Dr. Cevdet AykanatSeptember, 2004In less than a decade, the World Wide Web has evolved from a research projectto a cultural phenomena effective in almost every facet of our society. The increasein the popularity and usage of the Web enforced an increase in the efficiency ofinformation retrieval techniques used over the net. Crawling is among such tech-niques and is used by search engines, web portals, and web caches. A crawler is aprogram which downloads and stores web pages, generally to feed a search engineor a web repository. In order to be of use for its target applications, a crawlermust download huge amounts of data in a reasonable amount of time. Gener-ally, the high download rates required for efficient crawling cannot be achievedby single-processor systems. Thus, existing large-scale applications use multipleparallel processors to solve the crawling problem. Apart from the classical paral-lelization issues such as load balancing and minimization of the communicationoverhead, parallel crawling poses problems such as overlap avoidance and earlyretrieval of high quality pages. This thesis addresses parallelization of the crawl-ing task, and its major contribution is mainly on partitioning/page-to-processorassignment techniques applied in parallel crawlers. We propose two new page-to-processor assignment techniques based on graph and hypergraph partitioning,which respectively minimize the total communication volume and the number ofmessages, while balancing the storage load and page download requests of proces-sors. We implemented the proposed models, and our theoretic approaches havebeen supported with empirical findings. We also implemented an efficient parallelcrawler which uses the proposed models.

Benzer Tezler

  1. Yapay zeka teknikleri kullanılarak proje üretim sistemlerinin kurumlarda tasarımı ve geliştirilmesi

    Design and development of project production systems via artificial intelligence in organizations

    AHMET SELÇUK ÖZGÜR

    Doktora

    Türkçe

    Türkçe

    2023

    Yönetim Bilişim SistemleriDokuz Eylül Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. ÇİĞDEM TARHAN

  2. Debi-seviye izleme ve taşkın uyarı maksatlı gerçek zamanlı nehir gözlem istasyonu imalatı: Aşağı Sakarya Nehri uygulaması

    Manufacturing of a real-time river monitoring station for discharge-level monitoring and flood warning: Lower Sakarya River application

    FATMA DEMİR

    Doktora

    Türkçe

    Türkçe

    2024

    İnşaat MühendisliğiSakarya Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN SÖNMEZ