Crawling the web using Apache Nutch and Lucene

Apache Nutch ve Lucene kullanarak web tarama

PDF İndir

Tez No: 372495
Yazar: NIBRAS ABDULWAHID
Danışmanlar: YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: İngilizce
Üniversite: Çankaya Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 98

Özet

Webde yer alan geniş boyuttaki bilgilerin varlığı, kullanıcıların ihtiyacı olan bilgiyi seçmesini zorlaştırmaktadır. Bu bilgiler ile internet kullanıcıları arasındaki bağlantı yolu arama motorlarıdır. Arama motorları. Crawler, bot veya örümcek adı verilen yazılımlar aracılığıyla web'deki veri koleksiyonları üzerinde çalışır. Birçok arama motoru kullanıcısı arama motorlarının çalışma mekanizmasını bilmezler. Örneğin arama motorları nasıl çalışır veya web üzerinde bilgiyi nasıl yakalar yahut bilgiyi nasıl sıralar. Bu çalışmada açık kaynak tabanlı arama motorlarının nasıl çalıştığını detaylı incelenmiştir. Bu çalışmada, açık kaynak kod tabanlı Web Crawler programlarını izah ederken apache nutch ve lucene yazılımlarını tek tek kullanılmıştır. Bunlar Apache yazılım kurumu tarafından yayınlanmıştır. Nutch bir web crawler olup, world wide web üzerinde indeksleme yapabilmektedir. Nutch bir lucene mimarisi üzerinde geliştirilmiştir. Bilgi erişimi teknolojileri kullanır. Büyük boyuttaki verileri indeksleyebilmek için birçok yazılım kütüphanesi mevcuttur. Lucene web üzerinde var olan PDF, TEXT veya MS WORD gibi bilgiler ile ilgilenmez. Bu dökümanları indeksleyerek, faydalı olabileceği türe dönüştürür. Bu çalışmada Nutch ve Lucene'nin birarada kullanılmasının faydası, birbirinden bağımsız olmalarının yanısıra Nutch ve Lucene'nin ikisinin de Java ile geliştirilmesidir. Ayrıca Lucene içeriğini veya indeksini görüntülemek ve analiz edebilmek için Tag Cloud Technology'i kullanılmalıdır.

Özet (Çeviri)

The availability of information in large quantities on the Web makes it difficult for user selects resources about their information needs. The good link between the internet users and this information is Search engine. Search engine is kind of Information Retrieval (IR). It works on data collection from the Web by software program is called crawler, bot or spider. Most of Search Engines users don't know the mechanism of action the Search Engine, like how Search Engine works and how it catch information in the Web and how it rank the results to users. For this reason in this thesis used the open-source Search Engine is researched in detail. In this study, we used each of (Apache Nutch and Lucene) to clarify work of Web crawling open source. They are released under the Apache Software Foundation. Nutch is a web Search Engine working to search and index Web Pages from the World Wide Web (WWW). Nutch is based or built on top of Lucene. It uses in the information retrieval technology. It has more software libraries to indexing of large-size data. Lucene doesn't care about information existing in the Web, like PDF, TEXT, and MS Word. It is working to indexing these documents and convert them to the data can be utilized. The benefit of using both Nutch and Lucene in this study, they are free and we can their development. The Nutch and Lucene are written by Java language, it is a computer programming language. Furthermore, we used Tag Cloud Technology to analysis and view the Lucene content or its index.

Benzer Tezler

Tez No
301666
The development of mod_antiCrawl: An anti crawler add-on module for apache web servers
mod_antiCrawl: Apache web sunucusu için internet robotu engelleyici eklenti modülü geliştirilmesi
MUHAMMED OĞUZHAN TOPGÜL
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. M. UFUK ÇAĞLAYAN
Tez No
183773
İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama
Application of artificial neural networks for web content mining
GÜLŞAH AYNEKİN
Yüksek Lisans
Türkçe
2006
Endüstri ve Endüstri Mühendisliği Uludağ Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. SEDA ÖZMUTLU
Tez No
246602
Improving the efficiency of search engines: Strategies for focused crawling, searching, and index pruning
Arama motorlarının verimliliğini artırmak: Odaklanmış tarama, arama ve indeks budama stratejileri
İSMAİL SENGÖR ALTINGÖVDE
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. ÖZGÜR ULUSOY
Tez No
880067
Sosyal medya lokasyon analizi
Social media location analysis
YAHYA ALALI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİLÜFER YURTAY
Tez No
692629
An investigation on term weighting methods for distributed information retrieval
Dağıtık bilgi erişim sistemleri için terim ağırlıklandırma yöntemleri üzerine bir inceleme
SHANAY ZARGARI AFSHAR
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İLKER KOCABAŞ

Geri Dön