Geri Dön

A multithreaded web crawler and text search engine

Paralel ağ robotu ve metin arama motoru

  1. Tez No: 266230
  2. Yazar: ARZU BEHİYE TARIMCI
  3. Danışmanlar: PROF. DR. SELİM AKYOKUŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 133

Özet

Hiç süphe yok ki, son yüzyılımızın en iyi icatlarından bir tanesi İnternet'dir. Milyonlarca insan internet kullanıcısıdır. Bir bilgi aradıklarında çeşitli arama sitelerini ya da blog ismi verilen kişisel web sayfalarını ziyaret etmektedirler. Bu amaçla bir çok internet uygulaması geliştirilmiştir.Son yirmi yılın gelişme kaydetmiş calışma alanlarından ikisi, arama motorları ve veri madenciliğidir. İnternetin gelişmesi, web kaynaklarının erişimine, aranıp bulunmasına olan ihtiyacı arttırmıştır. Bu kullanılan arama motorlarının sayısının artmasına ve arama motoru servis tiplerinin farklılaşmasına neden olmuştur. Daha akıllı arama motorları, kullanıcının aradığına kolay ulaşabilmesi için önemlidir.Arama motorları kullandıkları robotlar ile web uzerinde bulunan kaynakları taramakta ve içeriklerini indeklemektedir. Bu indeksleri kullanarak, kullanıcılar istedikleri sayfalara erişebilmektedirler. Kullanılan indeks yapıları gelişmekte, bu indekslerde bir sayfadaki kelimeler yanında sayfanın hangi alanda olduğu konusunda da bilgi içermektedir. Konulara göre indekleme yapan arama motorları Kumeli (Clustered) Arama Motoru olarak adlandırılmaktadır. Bir sayfanın hangi konuda olduğunu belirlemek icin veri madenciliği sınıflama yöntemleri kullanılmaktadır.Bu tez calışmasında, Java platformu kullanılarak bir ağ robotu ve sınıflandırma sistemi geliştirilmiştir. Sınıflandırma sisteminde eğitim kümesi olarak Açık Dizin Projesi(DMOZ) kullanılmıştır. Açık Dizin Projesinde konularına göre etiketlenen web sayfaları taranmış ve bu sınıflandırma öğrenme algoritmalarında kullanılmıştır. Sınıflandırma için, açık kaynaklı bir veri madenciliği yazılımı olan WEKA Sınıflandırma Kütüphaneleri kullanılmıştır. Bu tezde geliştirilmiş olan ağ robotu web sayfalarını tararken, sınıflandırma algoritmalarini kullanarak aynı zamanda bu sayfaların konularını belirleyebilmektedir.

Özet (Çeviri)

Without a doubt, internet is one of the best inventions in the last era. Number of internet users is more than millions. When internet users need information about something or somewhere, they visit search web sites or personal blog pages on the internet. For this purpose, many internet applications have been developed.Search Engines and data mining have shown a big improvement in the last 20 years. The developments on the internet increased the need of accessing and finding correct web resources. Raise of search engines caused to differentiation of search engine services. More intelligent search engines are important for accessing to the correct data.Search engines scan contents of the web sites and create indexes for their contents into own database using robots. Advances in search engines enable classification of subjects of the documents besides words or terms used in a document. Such search engines which have document classification property are called ?Clustered Search Engines?. For determination of page categories, the data mining methods are used.In this thesis study, a web crawler and classification system has been developed. The Open Directory Project (DMOZ) is used as a training set for the classification system. The labeled (categorized) web pages which are stored in the DMOZ directory are used as an input for the classification algorithms. We used classification algorithms available in WEKA Data Mining Tool. The web crawler developed in this thesis classifies web pages according to their subjects while scanning the web pages.

Benzer Tezler

  1. Generating landmark labels for short distance queries in a distributed setting

    Dağıtık ortamda en kısa yol sorguları için yer işareti etiketleri oluşturma

    ARDA ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KAMER KAYA

  2. Characterization and verification of correctness criteria for event-driven asynchronous programs

    Olaya-dayalı asenkron programlar için doğruluk kriteri tanımlanması ve doğrulanması

    BURCU ÖZKAN

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERDAR TAŞIRAN

  3. Çok çekirdekli sistemlerin veri önbellekleri için geçici hataların modellenmesi

    Modeling soft errors for data caches in chip multiprocessor systems

    SELÇUK KOYUNCU

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇanakkale Onsekiz Mart Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İSMAİL KADAYIF

  4. Containers multi-host networking performance investigation according to traffic load

    Trafik yüküne göre konteyner küme ağ performans incelemesi

    GÜLSÜM ATICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ PINAR BÖLÜK

  5. İplik davranışlarının ilgiye yönelik programlama yaklaşımı kullanılarak metrik tabanlı analizi

    Metrics-based analysis of thread behavior using aspect-oriented programming approach

    ORAL ALAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NADİA ERDOĞAN