Page-to-processor assignment techniques for parallel crawlers
Paralel ağ tarayıcıları için sayfa atama yöntemleri
- Tez No: 184698
- Danışmanlar: PROF. DR. CEVDET AYKANAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Parallel crawling, graph partitioning, hypergraph partitioning, pageassignment.iii
- Yıl: 2004
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
üOZETğ ËşËPARALEL AG TARAYICILARI ICIN SAYFA ATAMAü ËYONTEMLERIAta Tü rkuBilgisayar Mü hendisliği, Yü ksek Lisansu g uTez Yüneticisi: Prof. Dr. Cevdet AykanatoEylü l, 2004uOn yıldan kısa bir sü re işerisinde, Web (World Wide Web), bir araştırma pro-uc sjesinden, toplumumuzun her yü zü nde etkili, kü ltü rel bir fenomene dünüşmüştü r.uu uu o us us uË sËInternetin popü laritesindeki ve kullanımındaki artış, Internette bilgi aramayıusağlayan tekniklerin etkinliklerinde de bir artışa neden olmuştur. Ağ taramag s s gbu tü r tekniklerden birisidir. Bir ağ tarayıcı, genellikle arama motorlarını veu gağ depolarını beslemek işin Web sayfalarını indiren ve kaydeden bir programdır.g cBir ağ tarayıcısının faydalı olabilmesi işin, kısa bir sü re işerisinde yü ksek miktar-g c uc ularda bilgiyi tarayabilmesi gerekmektedir. Genellikle, etkin bir tarama işin gereklicolan yü ksek indirme hızlarına tek işlemcili sistemlerde erişilinemez. Bu yü zden,u s s ugü nü mü zdeki bü yü k caplı uygulamalar, ağ tarama problemini cozmek işin cokuu u uu ş g şü cşişlemcili paralel sistemleri kullanırlar. Paralel ağ tarama, eşit yü k dağıtımı ves g s u ghaberleşme hacminin ya da mesaj sayısının azaltılması gibi bilinen problemlerinsyanında, cakışmaların onlenmesi ve yü ksek kalitedeki sayfaların erken taranmasışs ü ugibi problemlerin de cozü mü nü gerektirir. Bu tez, ağ tarama işleminin par-şü u u u g salelleştirilmesi konuludur ve temel olarak ana katkısı paralel ağ tarayıcılarındas gsayfaların işlemcilere atanması işlemindedir. Bu tezde, cizge ve hiper-şizges s ş cmodellerini bülü mlemeye dayanan, iki yeni sayfa atama yüntemi onermekteyiz.ou o üYüntemlerimiz, toplam haberleşme hacmini ve toplam mesaj sayısını azaltırken,o sişlemci başına düşen depolama yü kü nü ve taranması gereken sayfa miktarını den-s s us uuugelemektedir. Tez sırasında onerdiğimiz modeller uygulamaya dünüştü rü lmüş veü g o us u u usteorik yaklaşımlarımızın doğruluğu deneysel sonuşlarla kanıtlanmıştır. Ayrıcas g g c sonerilen yüntemleri kullanan etkin bir ağ tarama programı yazılmıştır.ü o g sAnahtar süzcükler : Paralel ağ tarama, cizge bülü mleme, hiper-şizge bülü mleme,ou g ş ou c ousayfa atama.iv
Özet (Çeviri)
ABSTRACTPAGE-TO-PROCESSOR ASSIGNMENT TECHNIQUESFOR PARALLEL CRAWLERSAta Tü rkuM.S. in Computer EngineeringSupervisor: Prof. Dr. Cevdet AykanatSeptember, 2004In less than a decade, the World Wide Web has evolved from a research projectto a cultural phenomena eï¬ective in almost every facet of our society. The increasein the popularity and usage of the Web enforced an increase in the eï¬ciency ofinformation retrieval techniques used over the net. Crawling is among such tech-niques and is used by search engines, web portals, and web caches. A crawler is aprogram which downloads and stores web pages, generally to feed a search engineor a web repository. In order to be of use for its target applications, a crawlermust download huge amounts of data in a reasonable amount of time. Gener-ally, the high download rates required for eï¬cient crawling cannot be achievedby single-processor systems. Thus, existing large-scale applications use multipleparallel processors to solve the crawling problem. Apart from the classical paral-lelization issues such as load balancing and minimization of the communicationoverhead, parallel crawling poses problems such as overlap avoidance and earlyretrieval of high quality pages. This thesis addresses parallelization of the crawl-ing task, and its major contribution is mainly on partitioning/page-to-processorassignment techniques applied in parallel crawlers. We propose two new page-to-processor assignment techniques based on graph and hypergraph partitioning,which respectively minimize the total communication volume and the number ofmessages, while balancing the storage load and page download requests of proces-sors. We implemented the proposed models, and our theoretic approaches havebeen supported with empirical ï¬ndings. We also implemented an eï¬cient parallelcrawler which uses the proposed models.
Benzer Tezler
- Parallel processing of large scale genomic data
Başlık çevirisi yok
MÜCAHİD KUTLU
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolThe Ohio State UniversityDR. GAGAN AGRAWAL
- Ulaşım planlama çalışması ve kentiçi yol şebekesindeki trafik akışının tahmininde kullanılan atama teknikleri
Başlık çevirisi yok
NAZAN AYBANU KOÇAK
- Yapay zeka teknikleri kullanılarak proje üretim sistemlerinin kurumlarda tasarımı ve geliştirilmesi
Design and development of project production systems via artificial intelligence in organizations
AHMET SELÇUK ÖZGÜR
Doktora
Türkçe
2023
Yönetim Bilişim SistemleriDokuz Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. ÇİĞDEM TARHAN
- Dinamik manyetik rezonans görüntüleme ve ultrason kontrast ajanlı power doppler ultrasonografi ile meme lezyonlarında benign ve malign ayrımı
Başlık çevirisi yok
FAİK SUNGURLU
Tıpta Uzmanlık
Türkçe
2002
OnkolojiMarmara ÜniversitesiRadyodiagnostik Ana Bilim Dalı
DOÇ.DR. ERKİN ARIBAL
- Debi-seviye izleme ve taşkın uyarı maksatlı gerçek zamanlı nehir gözlem istasyonu imalatı: Aşağı Sakarya Nehri uygulaması
Manufacturing of a real-time river monitoring station for discharge-level monitoring and flood warning: Lower Sakarya River application
FATMA DEMİR
Doktora
Türkçe
2024
İnşaat MühendisliğiSakarya Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN SÖNMEZ