Geri Dön

İnternet'te heterojen veri kaynaklarından veri toplanması, entegrasyonu ve güncellenmesi

Collecting, integrating and updating data from heterogenous data sources on the internet

  1. Tez No: 849103
  2. Yazar: ZÜLFÜ ALANOĞLU
  3. Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 108

Özet

Günümüzde Web hızla büyüyen ve çok çeşitli verinin bulunduğu en büyük veri kaynağıdır. Kullanıcılar bu veri kaynağından istedikleri veriyi almak için genellikle arama motorlarını kullanmaktadırlar. Arama motorları bu verileri Web tarayıcıları aracılığı ile elde ederler. Web tarayıcıları Web sayfalarındaki verileri toplar, ayrıştırır ve indeksleyip saklarlar. Web tarama sürecindeki en önemli konular; hangi URL'lerden başlanacağı, taramanın kapsamı ve veri deposunun güncel tutulması için kullanılan güncelleme algoritmasıdır. Bu tez çalışmasında ilk olarak kapsamı tüm Web olan genel bir tarayıcının tohum URL seçim ve kapsam genişletme yöntemleri sunulmuştur. Tohum URL seçiminde bazı ölçütlere dayanarak üç farklı tohum URL veri kümesi oluşturulmuş ve performansları detaylı bir şekilde analiz edilmiştir. Ayrıca kapsamı hızlı bir şekilde genişletmek için link skoruna dayalı yeni bir tarama algoritması önerilmiştir. Tohum URL kümelerinden başlanarak taramalar yapılmış, sonuçlar karşılaştırılmış ve detaylı analizleri yapılmıştır. İkinci olarak arama motorlarının performanslarını etkileyen en önemli özellik olan tekrar ziyaret sürelerinin belirlenmesi amacıyla EMA yöntemi önerilmiştir. EMA yöntemi kullanılarak geliştirilen EMACrawler'ın kesinlik, toplam kapsama alanı ve verimlilik ölçütleri kullanılarak test ve analiz işlemleri gerçekleştirilmiştir. Yapılan deneysel çalışmaların sonucunda, EMACrawler'ın güncel verilerin elde edilmesi ve veri ambarlarının tazeliğinin korunmasında başarılı olduğu görülmüştür.

Özet (Çeviri)

Today, the Web is the largest source of data that is rapidly growing and contains a wide variety of data. Users typically use search engines to retrieve the data they desire from this data source. Search engines obtain this data through Web crawlers. Web crawlers collect, parse, index and store data on Web pages. The most important issues in the Web crawling process are which URLs to start from, the scope of the crawl, and the update algorithm used to keep the data repository up-to-date. In this thesis study, firstly, methods for seed URL selection and scope expansion of a general Web crawler with a scope covering the entire Web are presented. Three distinct sets URL datasets were created based on specific criteria for seed URL selection, and their performances were thoroughly analyzed. Additionally, a novel crawling algorithm, grounded on link score, was proposed for the swift expansion of scope. Crawls were initiated from seed URL sets, results were compared, and detailed analyses were performed. Secondly, the EMA method was proposed to determine revisit times, which is the most important feature affecting the performance of search engines. Testing and analysis were carried out using the accuracy, total coverage and efficiency criteria of EMACrawler, which was developed using the EMA method. As a result of the experimental studies, it has been observed that EMACrawler is successful in obtaining up-to-date data and maintaining the freshness of data warehouses.

Benzer Tezler

  1. İnternette heterojen veri kaynaklarından verinin toplanması, doğrulanması ve sorgulanması

    Collecting, verifying, and inquiring data from heterogeneous data sources on the internet

    SERDAR KÜRŞAT SARIKOZ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  2. Novel data partitioning and scheduling schemes for dynamic federated vehicular cloud

    Dinamik federe araç bulutu için yeni bir görev yükü paylaşımı ve iş planlaması şemaları

    WISEBORN MANFE DANQUAH

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ TURGAY ALTILAR

  3. Information extraction and manipulation system for the web sources

    Web kaynaklarından bilgi sağlanması ve manipülasyonu

    SERHAN TATAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. M. AKİF EYLER

  4. Multi-party WebRTC videoconferencing using scalable video: From best-effort over-the-top to managed value-added services

    Ölçeklenebilir video kodlaması kullanılan çok partili WebRTC video konferansı: En iyi erişim gösteren internetten, katma değer konulmuş yönetilen hizmetlere

    RIZA ARDA KIRMIZIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET MURAT TEKALP

  5. Next-generation internet of energy harvesting things

    Gelecek-nesil enerji hasadı yapan nesnelerin interneti

    OKTAY ÇETİNKAYA

    Doktora

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR BARIŞ AKAN