İnternet'te heterojen veri kaynaklarından veri toplanması, entegrasyonu ve güncellenmesi

Collecting, integrating and updating data from heterogenous data sources on the internet

PDF İndir

Tez No: 849103
Yazar: ZÜLFÜ ALANOĞLU
Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 108

Özet

Günümüzde Web hızla büyüyen ve çok çeşitli verinin bulunduğu en büyük veri kaynağıdır. Kullanıcılar bu veri kaynağından istedikleri veriyi almak için genellikle arama motorlarını kullanmaktadırlar. Arama motorları bu verileri Web tarayıcıları aracılığı ile elde ederler. Web tarayıcıları Web sayfalarındaki verileri toplar, ayrıştırır ve indeksleyip saklarlar. Web tarama sürecindeki en önemli konular; hangi URL'lerden başlanacağı, taramanın kapsamı ve veri deposunun güncel tutulması için kullanılan güncelleme algoritmasıdır. Bu tez çalışmasında ilk olarak kapsamı tüm Web olan genel bir tarayıcının tohum URL seçim ve kapsam genişletme yöntemleri sunulmuştur. Tohum URL seçiminde bazı ölçütlere dayanarak üç farklı tohum URL veri kümesi oluşturulmuş ve performansları detaylı bir şekilde analiz edilmiştir. Ayrıca kapsamı hızlı bir şekilde genişletmek için link skoruna dayalı yeni bir tarama algoritması önerilmiştir. Tohum URL kümelerinden başlanarak taramalar yapılmış, sonuçlar karşılaştırılmış ve detaylı analizleri yapılmıştır. İkinci olarak arama motorlarının performanslarını etkileyen en önemli özellik olan tekrar ziyaret sürelerinin belirlenmesi amacıyla EMA yöntemi önerilmiştir. EMA yöntemi kullanılarak geliştirilen EMACrawler'ın kesinlik, toplam kapsama alanı ve verimlilik ölçütleri kullanılarak test ve analiz işlemleri gerçekleştirilmiştir. Yapılan deneysel çalışmaların sonucunda, EMACrawler'ın güncel verilerin elde edilmesi ve veri ambarlarının tazeliğinin korunmasında başarılı olduğu görülmüştür.

Özet (Çeviri)

Today, the Web is the largest source of data that is rapidly growing and contains a wide variety of data. Users typically use search engines to retrieve the data they desire from this data source. Search engines obtain this data through Web crawlers. Web crawlers collect, parse, index and store data on Web pages. The most important issues in the Web crawling process are which URLs to start from, the scope of the crawl, and the update algorithm used to keep the data repository up-to-date. In this thesis study, firstly, methods for seed URL selection and scope expansion of a general Web crawler with a scope covering the entire Web are presented. Three distinct sets URL datasets were created based on specific criteria for seed URL selection, and their performances were thoroughly analyzed. Additionally, a novel crawling algorithm, grounded on link score, was proposed for the swift expansion of scope. Crawls were initiated from seed URL sets, results were compared, and detailed analyses were performed. Secondly, the EMA method was proposed to determine revisit times, which is the most important feature affecting the performance of search engines. Testing and analysis were carried out using the accuracy, total coverage and efficiency criteria of EMACrawler, which was developed using the EMA method. As a result of the experimental studies, it has been observed that EMACrawler is successful in obtaining up-to-date data and maintaining the freshness of data warehouses.

Benzer Tezler

Tez No
834048
İnternette heterojen veri kaynaklarından verinin toplanması, doğrulanması ve sorgulanması
Collecting, verifying, and inquiring data from heterogeneous data sources on the internet
SERDAR KÜRŞAT SARIKOZ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
Tez No
765594
Novel data partitioning and scheduling schemes for dynamic federated vehicular cloud
Dinamik federe araç bulutu için yeni bir görev yükü paylaşımı ve iş planlaması şemaları
WISEBORN MANFE DANQUAH
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ TURGAY ALTILAR
Tez No
126562
Information extraction and manipulation system for the web sources
Web kaynaklarından bilgi sağlanması ve manipülasyonu
SERHAN TATAR
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. M. AKİF EYLER
Tez No
547704
Multi-party WebRTC videoconferencing using scalable video: From best-effort over-the-top to managed value-added services
Ölçeklenebilir video kodlaması kullanılan çok partili WebRTC video konferansı: En iyi erişim gösteren internetten, katma değer konulmuş yönetilen hizmetlere
RIZA ARDA KIRMIZIOĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET MURAT TEKALP
Tez No
492502
Next-generation internet of energy harvesting things
Gelecek-nesil enerji hasadı yapan nesnelerin interneti
OKTAY ÇETİNKAYA
Doktora
İngilizce
2018
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR BARIŞ AKAN

Geri Dön