Geri Dön

Mevcut yöntemlerin sentezi ile web sayfalarının belli yapılardaki bölgelerinin tespiti

Localization of structured regions of a web page through a synthesis of existing methods

  1. Tez No: 750256
  2. Yazar: MALIKA SIRAT
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ADEM ÖZYAVAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Web madenciliği, Veri bölgesi, Gürültü Giderme, Belge Nesne Model ağacı, HTML, Web mining, Data region, Noise Removal, Document Object Model tree, HTML
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 57

Özet

Web içerik madenciliği, içeriğin genellikle HTML etiket verilerinden ve daha da önemlisi, HTML etiket verili listeler ve tablolar ve muhtemelen diğer iç içe yapılandırılmış verilerden oluştuğu bir web madenciliği dalıdır. Genellikle, yararlı bilgi parçaları, bazı kalıplar halinde bu yapılandırılmış veri bölgelerinde bulunur. Ancak bu kalıbı bozan gürültüler nedeniyle, faydalı veri kayıtlarının tespiti ve çıkarılması zorlu bir görev haline gelir. Veri kaydının yerinin tespiti ve çıkarılmasında, yapılandırılmış veri bölgesindeki düzenli olmayan HTML etiketinin yanı sıra yapılandırılmış veri bölgelerinin dışındaki herhangi bir veri, gürültü olarak kabul edilir. Önerilen çalışma, ilgili veriyi çıkarma sistemlerinin doğruluk performansını daha da iyileştirmek için mevcut yöntemlerin başarılı bileşenlerini küçük değişikliklerle birleştiren bir sentezidir. Mevcut yöntemlerin çoğu, veri kaydı bölgelerini tespit için benzer düğümleri kümelemek veya tespitten önce bir web sayfasını temsil etmek için DOM ağacını bir Etiket Yolu Sırasına (TPS) dönüştürmek için Belge Nesne Modeli (DOM) ağacını kullanır. Önerilen çalışma ilk olarak bir web sayfasını kodlayan ve veri kayıt modellerini çıkarmak için Sonek Ağacı Tabanlı Çıkarım Yöntemini (STEM) kullanan benzersiz diziyi oluşturur. Daha sonra, ilişkili veri kayıtlarının yapı olarak benzer olduğu varsayımına dayalı olarak alt dizileri kümeler. Diziler arasındaki benzerlik En Uzun Ortak Alt Dizi (LCS) algoritması kullanılarak hesaplanır. Son adımda, gürültülü alt dizilerinin DOM ağacının düğümlerine karşılık gelenleri ağaçtan budanır. Önerilen çalışmayı test etmek için bazı herkese açık web sayfaları ve Testbed veri seti kullanılmıştır. Elde edilen sonuçlar, TPS filtre yönteminin sonuçları ile karşılaştırılmıştır. Deneyler, önerilen çalışma kullanılarak kaldırılan ortalama gürültü sayısının, önceki raporlarla eşleşebilen DOM ağacının %43'ü olduğunu ve TPS filtresinden daha yüksek olduğunu göstermektedir.

Özet (Çeviri)

Web content mining is a branch of web mining where the content usually consists of HTML tag-data and more importantly structured data such as lists and tables with HTML tag-data and possibly other nested structured data. Usually, useful pieces of information reside in these structured data regions following some pattern. But due to noises that break this pattern, detection and extraction of useful data records turn out to be a challenging task. For data record detection and extraction applications, any non-regular HTML tag in the structured data region as well as any data outside of the structed data regions of interest are considered to be noise. The proposed work is a synthesis of existing methods combining their successful components with minor modifications to further improve the accuracy performance of the extraction systems. Most of the existing methods utilize the Document Object Model (DOM) tree to cluster similar nodes to detect the data record regions or convert DOM tree into a Tag Path Sequence (TPS) to represent a web page before detection. The proposed work first generates the unique sequence that encodes a webpage and utilizes the Suffix Tree-based Extraction Method (STEM) to extract data record patterns. It then clusters subsequences based on the assumption that data records that are related are similar in structure. The similarity between sequences are computed using the longest common subsequence (LCS) algorithm. In the last step, the noisy subsequences are removed by pruning the corresponding nodes from the DOM tree. Some publicly available web pages and Testbed dataset are used for testing the proposed work. The obtained results are compared with those of the TPS filter method. Experiments show that the average number of noise removed using the proposed work is 43% of the DOM tree, which can match previous reports and it is higher than that of TPS filter.

Benzer Tezler

  1. Applying TPACK to foster dynamic Language acquisition in an ESL/EFL classroom: A systematic review

    ESL/EFL(Yabancı/ikinci dil olarak İngilizce) sınıfında dinamik bir dil edinimi açısından TPACK uygulaması: Sistematik bir derleme

    EMAD JAMAL SH. ALAMLEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Eğitim ve ÖğretimVan Yüzüncü Yıl Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HALİL İBRAHİM ÖZOK

  2. Türkiye'de COVID-19 salgını döneminde ortaya konan uzaktan eğitim çalışmalarının değerlendirilmesi: Bir meta-sentez çalışması

    The analysis of distance education studies conducted during COVID-19 pandemic in Turkey: A meta-synthesis

    GÜLBİN GÜNEY DEMİRDÖKEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimBahçeşehir Üniversitesi

    Eğitim Teknolojisi Bilim Dalı

    DOÇ. DR. MUHAMMET ÖZDEN

  3. Hibrit döşeme kirişleri: Tarihsel gelişim, tasarım örnekleri ve performans değerlendirmeleri

    Hybrid floor beams: Historical development, design examples and performance evaluations

    TUĞÇE SOYTAŞ İNCİLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. OĞUZ CEM ÇELİK

  4. Green synthesis of nanostructured bioactive glass for dental applications

    Diş hekimliği uygulamalarında kullanılmak üzere yeşil sentez ile nano-yapılı biyocam sentezi

    MELİSA TÜNCER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Biyomühendislikİzmir Yüksek Teknoloji Enstitüsü

    Biyomühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEYDA ÖKSEL KARAKUŞ

    DR. ÖĞR. ÜYESİ DENİZ TANIL YÜCESOY

  5. Karbon nanotüp/kobalt ferrit kompozit nanopartiküllerin sentezi ve fotokatalitik aktivitelerinin incelenmesi

    Synthesis of carbon nanotube/cobalt ferrite nanocomposites and theinvestigation of their photocatalytic activities

    EMRAH BAYRAMOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    KimyaBayburt Üniversitesi

    Kimya Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İBRAHİM HAKKI KARAKAŞ