Mevcut yöntemlerin sentezi ile web sayfalarının belli yapılardaki bölgelerinin tespiti
Localization of structured regions of a web page through a synthesis of existing methods
- Tez No: 750256
- Danışmanlar: DR. ÖĞR. ÜYESİ ADEM ÖZYAVAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Web madenciliği, Veri bölgesi, Gürültü Giderme, Belge Nesne Model ağacı, HTML, Web mining, Data region, Noise Removal, Document Object Model tree, HTML
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Aydın Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 57
Özet
Web içerik madenciliği, içeriğin genellikle HTML etiket verilerinden ve daha da önemlisi, HTML etiket verili listeler ve tablolar ve muhtemelen diğer iç içe yapılandırılmış verilerden oluştuğu bir web madenciliği dalıdır. Genellikle, yararlı bilgi parçaları, bazı kalıplar halinde bu yapılandırılmış veri bölgelerinde bulunur. Ancak bu kalıbı bozan gürültüler nedeniyle, faydalı veri kayıtlarının tespiti ve çıkarılması zorlu bir görev haline gelir. Veri kaydının yerinin tespiti ve çıkarılmasında, yapılandırılmış veri bölgesindeki düzenli olmayan HTML etiketinin yanı sıra yapılandırılmış veri bölgelerinin dışındaki herhangi bir veri, gürültü olarak kabul edilir. Önerilen çalışma, ilgili veriyi çıkarma sistemlerinin doğruluk performansını daha da iyileştirmek için mevcut yöntemlerin başarılı bileşenlerini küçük değişikliklerle birleştiren bir sentezidir. Mevcut yöntemlerin çoğu, veri kaydı bölgelerini tespit için benzer düğümleri kümelemek veya tespitten önce bir web sayfasını temsil etmek için DOM ağacını bir Etiket Yolu Sırasına (TPS) dönüştürmek için Belge Nesne Modeli (DOM) ağacını kullanır. Önerilen çalışma ilk olarak bir web sayfasını kodlayan ve veri kayıt modellerini çıkarmak için Sonek Ağacı Tabanlı Çıkarım Yöntemini (STEM) kullanan benzersiz diziyi oluşturur. Daha sonra, ilişkili veri kayıtlarının yapı olarak benzer olduğu varsayımına dayalı olarak alt dizileri kümeler. Diziler arasındaki benzerlik En Uzun Ortak Alt Dizi (LCS) algoritması kullanılarak hesaplanır. Son adımda, gürültülü alt dizilerinin DOM ağacının düğümlerine karşılık gelenleri ağaçtan budanır. Önerilen çalışmayı test etmek için bazı herkese açık web sayfaları ve Testbed veri seti kullanılmıştır. Elde edilen sonuçlar, TPS filtre yönteminin sonuçları ile karşılaştırılmıştır. Deneyler, önerilen çalışma kullanılarak kaldırılan ortalama gürültü sayısının, önceki raporlarla eşleşebilen DOM ağacının %43'ü olduğunu ve TPS filtresinden daha yüksek olduğunu göstermektedir.
Özet (Çeviri)
Web content mining is a branch of web mining where the content usually consists of HTML tag-data and more importantly structured data such as lists and tables with HTML tag-data and possibly other nested structured data. Usually, useful pieces of information reside in these structured data regions following some pattern. But due to noises that break this pattern, detection and extraction of useful data records turn out to be a challenging task. For data record detection and extraction applications, any non-regular HTML tag in the structured data region as well as any data outside of the structed data regions of interest are considered to be noise. The proposed work is a synthesis of existing methods combining their successful components with minor modifications to further improve the accuracy performance of the extraction systems. Most of the existing methods utilize the Document Object Model (DOM) tree to cluster similar nodes to detect the data record regions or convert DOM tree into a Tag Path Sequence (TPS) to represent a web page before detection. The proposed work first generates the unique sequence that encodes a webpage and utilizes the Suffix Tree-based Extraction Method (STEM) to extract data record patterns. It then clusters subsequences based on the assumption that data records that are related are similar in structure. The similarity between sequences are computed using the longest common subsequence (LCS) algorithm. In the last step, the noisy subsequences are removed by pruning the corresponding nodes from the DOM tree. Some publicly available web pages and Testbed dataset are used for testing the proposed work. The obtained results are compared with those of the TPS filter method. Experiments show that the average number of noise removed using the proposed work is 43% of the DOM tree, which can match previous reports and it is higher than that of TPS filter.
Benzer Tezler
- Applying TPACK to foster dynamic Language acquisition in an ESL/EFL classroom: A systematic review
ESL/EFL(Yabancı/ikinci dil olarak İngilizce) sınıfında dinamik bir dil edinimi açısından TPACK uygulaması: Sistematik bir derleme
EMAD JAMAL SH. ALAMLEH
Yüksek Lisans
İngilizce
2019
Eğitim ve ÖğretimVan Yüzüncü Yıl ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HALİL İBRAHİM ÖZOK
- Türkiye'de COVID-19 salgını döneminde ortaya konan uzaktan eğitim çalışmalarının değerlendirilmesi: Bir meta-sentez çalışması
The analysis of distance education studies conducted during COVID-19 pandemic in Turkey: A meta-synthesis
GÜLBİN GÜNEY DEMİRDÖKEN
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimBahçeşehir ÜniversitesiEğitim Teknolojisi Bilim Dalı
DOÇ. DR. MUHAMMET ÖZDEN
- Hibrit döşeme kirişleri: Tarihsel gelişim, tasarım örnekleri ve performans değerlendirmeleri
Hybrid floor beams: Historical development, design examples and performance evaluations
TUĞÇE SOYTAŞ İNCİLİ
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. OĞUZ CEM ÇELİK
- Green synthesis of nanostructured bioactive glass for dental applications
Diş hekimliği uygulamalarında kullanılmak üzere yeşil sentez ile nano-yapılı biyocam sentezi
MELİSA TÜNCER
Yüksek Lisans
İngilizce
2023
Biyomühendislikİzmir Yüksek Teknoloji EnstitüsüBiyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CEYDA ÖKSEL KARAKUŞ
DR. ÖĞR. ÜYESİ DENİZ TANIL YÜCESOY
- Karbon nanotüp/kobalt ferrit kompozit nanopartiküllerin sentezi ve fotokatalitik aktivitelerinin incelenmesi
Synthesis of carbon nanotube/cobalt ferrite nanocomposites and theinvestigation of their photocatalytic activities
EMRAH BAYRAMOĞLU
Yüksek Lisans
Türkçe
2022
KimyaBayburt ÜniversitesiKimya Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İBRAHİM HAKKI KARAKAŞ