Mevcut yöntemlerin sentezi ile web sayfalarının belli yapılardaki bölgelerinin tespiti

Localization of structured regions of a web page through a synthesis of existing methods

PDF İndir

Tez No: 750256
Yazar: MALIKA SIRAT
Danışmanlar: DR. ÖĞR. ÜYESİ ADEM ÖZYAVAŞ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Web madenciliği, Veri bölgesi, Gürültü Giderme, Belge Nesne Model ağacı, HTML, Web mining, Data region, Noise Removal, Document Object Model tree, HTML
Yıl: 2022
Dil: Türkçe
Üniversite: İstanbul Aydın Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 57

Özet

Web içerik madenciliği, içeriğin genellikle HTML etiket verilerinden ve daha da önemlisi, HTML etiket verili listeler ve tablolar ve muhtemelen diğer iç içe yapılandırılmış verilerden oluştuğu bir web madenciliği dalıdır. Genellikle, yararlı bilgi parçaları, bazı kalıplar halinde bu yapılandırılmış veri bölgelerinde bulunur. Ancak bu kalıbı bozan gürültüler nedeniyle, faydalı veri kayıtlarının tespiti ve çıkarılması zorlu bir görev haline gelir. Veri kaydının yerinin tespiti ve çıkarılmasında, yapılandırılmış veri bölgesindeki düzenli olmayan HTML etiketinin yanı sıra yapılandırılmış veri bölgelerinin dışındaki herhangi bir veri, gürültü olarak kabul edilir. Önerilen çalışma, ilgili veriyi çıkarma sistemlerinin doğruluk performansını daha da iyileştirmek için mevcut yöntemlerin başarılı bileşenlerini küçük değişikliklerle birleştiren bir sentezidir. Mevcut yöntemlerin çoğu, veri kaydı bölgelerini tespit için benzer düğümleri kümelemek veya tespitten önce bir web sayfasını temsil etmek için DOM ağacını bir Etiket Yolu Sırasına (TPS) dönüştürmek için Belge Nesne Modeli (DOM) ağacını kullanır. Önerilen çalışma ilk olarak bir web sayfasını kodlayan ve veri kayıt modellerini çıkarmak için Sonek Ağacı Tabanlı Çıkarım Yöntemini (STEM) kullanan benzersiz diziyi oluşturur. Daha sonra, ilişkili veri kayıtlarının yapı olarak benzer olduğu varsayımına dayalı olarak alt dizileri kümeler. Diziler arasındaki benzerlik En Uzun Ortak Alt Dizi (LCS) algoritması kullanılarak hesaplanır. Son adımda, gürültülü alt dizilerinin DOM ağacının düğümlerine karşılık gelenleri ağaçtan budanır. Önerilen çalışmayı test etmek için bazı herkese açık web sayfaları ve Testbed veri seti kullanılmıştır. Elde edilen sonuçlar, TPS filtre yönteminin sonuçları ile karşılaştırılmıştır. Deneyler, önerilen çalışma kullanılarak kaldırılan ortalama gürültü sayısının, önceki raporlarla eşleşebilen DOM ağacının %43'ü olduğunu ve TPS filtresinden daha yüksek olduğunu göstermektedir.

Özet (Çeviri)

Web content mining is a branch of web mining where the content usually consists of HTML tag-data and more importantly structured data such as lists and tables with HTML tag-data and possibly other nested structured data. Usually, useful pieces of information reside in these structured data regions following some pattern. But due to noises that break this pattern, detection and extraction of useful data records turn out to be a challenging task. For data record detection and extraction applications, any non-regular HTML tag in the structured data region as well as any data outside of the structed data regions of interest are considered to be noise. The proposed work is a synthesis of existing methods combining their successful components with minor modifications to further improve the accuracy performance of the extraction systems. Most of the existing methods utilize the Document Object Model (DOM) tree to cluster similar nodes to detect the data record regions or convert DOM tree into a Tag Path Sequence (TPS) to represent a web page before detection. The proposed work first generates the unique sequence that encodes a webpage and utilizes the Suffix Tree-based Extraction Method (STEM) to extract data record patterns. It then clusters subsequences based on the assumption that data records that are related are similar in structure. The similarity between sequences are computed using the longest common subsequence (LCS) algorithm. In the last step, the noisy subsequences are removed by pruning the corresponding nodes from the DOM tree. Some publicly available web pages and Testbed dataset are used for testing the proposed work. The obtained results are compared with those of the TPS filter method. Experiments show that the average number of noise removed using the proposed work is 43% of the DOM tree, which can match previous reports and it is higher than that of TPS filter.

Benzer Tezler

Tez No
961173
Taxonomy and visualization of digital architecture knowledge: Proposal for a scientific online encyclopedia
Dijital mimarlık bilgisinin taksonomisi ve görselleştirilmesi: Bilimsel bir çevrim içi ansiklopedi önerisi
ESRANUR KARACİF
Doktora
İngilizce
2025
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. ETHEM GÜRER
Tez No
577865
Applying TPACK to foster dynamic Language acquisition in an ESL/EFL classroom: A systematic review
ESL/EFL(Yabancı/ikinci dil olarak İngilizce) sınıfında dinamik bir dil edinimi açısından TPACK uygulaması: Sistematik bir derleme
EMAD JAMAL SH. ALAMLEH
Yüksek Lisans
İngilizce
2019
Eğitim ve Öğretim Van Yüzüncü Yıl Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALİL İBRAHİM ÖZOK
Tez No
724513
Türkiye'de COVID-19 salgını döneminde ortaya konan uzaktan eğitim çalışmalarının değerlendirilmesi: Bir meta-sentez çalışması
The analysis of distance education studies conducted during COVID-19 pandemic in Turkey: A meta-synthesis
GÜLBİN GÜNEY DEMİRDÖKEN
Yüksek Lisans
Türkçe
2022
Eğitim ve Öğretim Bahçeşehir Üniversitesi
Eğitim Teknolojisi Bilim Dalı
DOÇ. DR. MUHAMMET ÖZDEN
Tez No
909071
Hibrit döşeme kirişleri: Tarihsel gelişim, tasarım örnekleri ve performans değerlendirmeleri
Hybrid floor beams: Historical development, design examples and performance evaluations
TUĞÇE SOYTAŞ İNCİLİ
Yüksek Lisans
Türkçe
2024
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. OĞUZ CEM ÇELİK
Tez No
848694
Green synthesis of nanostructured bioactive glass for dental applications
Diş hekimliği uygulamalarında kullanılmak üzere yeşil sentez ile nano-yapılı biyocam sentezi
MELİSA TÜNCER
Yüksek Lisans
İngilizce
2023
Biyomühendislik İzmir Yüksek Teknoloji Enstitüsü
Biyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CEYDA ÖKSEL KARAKUŞ
DR. ÖĞR. ÜYESİ DENİZ TANIL YÜCESOY

Geri Dön