Genetik algoritmaları kullanarak web sayfalarından veri çıkarımı için otomatik olarak düzenli ifade oluşturma
Automatically generating regular expressions for data extraction from web pages using genetic algorithms
- Tez No: 882526
- Danışmanlar: DR. ÖĞR. ÜYESİ TARIK YERLİKAYA
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Trakya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 124
Özet
Bu tez çalışmasında web sayfalarından ilgili görüntülerin çıkarılması için genetik algoritmalara dayalı otomatik düzenli ifade üreten bir model tasarlanmıştır. Web ortamında paylaşılan veriler çıkarıldıktan sonra metin madenciliği, veri madenciliği, görüntü analizleri, sahte haber analizi gibi birçok alanda kullanılmaktadır. Web sayfalarında paylaşılan verilerin çıkarılmasına web kazıma işlemi denilmektedir. Fakat genellikle web kazıyıcı programlar ya da manuel olarak gerçekleştirilen bu veri çıkarma işlemi hem daha çok hataya yol açmakta hem de daha çok zaman alıcı olabilmektedir. Literatürde genellikle haber başlıkları, ana içerik ve tablolar gibi metin verisinin çıkarılmasına yönelik çalışmaların daha yoğun olduğu görülmektedir. Bu tez çalışmasında, web sayfalarındaki asıl haber içeriğine ait görüntü verisinin çıkarılması için bir yöntem geliştirilmiştir. Diğer yöntemlerden farklı olarak ilgili görüntülere erişilebilmesine yönelik tasarlanan modelde otomatik olarak bir düzenli ifade üretilmektedir. Düzenli ifadelerin yazım zorluğu ve tecrübe gerektirmesi nedeniyle elle yazılması işlemini zorlaştırmaktadır. Bu sebeple, gerçekleştirilen çalışma ile bir ya da birkaç ilgili resim verisine ait HTML metni incelenerek ilgili resimlere ulaşabilmeyi sağlayan düzenli ifade otomatik olarak oluşturulmaktadır. Genetik algoritmalardan yararlanılarak gerçekleştirilen çalışmada, genetik algoritmaların kötünün elenmesi ve en iyinin hayatta kalması prensibine göre en çok ilgili resme ulaşmayı sağlayan düzenli ifadenin üretilmesi amaçlanmıştır. Çalışmada kullanılan veri setinde 58 farklı ülkeye ait 200 web sitesinden toplanmış görüntü verisine ait HTML kodları bulunmakta ve her site için de 100 sayfa yer almaktadır. Toplam 635.015 adet ilgili ve ilgisiz görüntü verisinin bulunduğu veri seti içerisinde 22.682 adet ilgili görüntü verisi bulunmaktadır. Her bir görüntü verisi 30 adet özellik ile kodlanmıştır. Yapılan çalışma ile bu özelliklerden 3 tanesi kullanılmıştır. Çalışmada elde edilen bulgularda Python programlama dili kullanılarak tasarlanan model ile yapılan testler sonucunda 200 web sitesi için ilgili resimlere ulaşma oranının %98 oranında olduğu görülmüştür.
Özet (Çeviri)
In this thesis study, an automatic regular expression generating model based on genetic algorithms was designed to extract relevant images from web pages. After the data shared on the web is extracted, it is used in many areas such as text mining, data mining, image analysis, fake news analysis. Extracting data shared on web pages is called web scraping. However, this data extraction process, which is usually carried out manually by web scraping programs or manually, causes more errors and can be more time consuming. In the literature, it is generally seen that studies on extracting text data such as news headlines, main content and tables are more intense. In this thesis, a method has been developed to extract image data of the actual news content on web pages. Unlike other methods, a regular expression is automatically generated in the model designed to access the relevant images. Regular expressions are difficult to write and require experience, making writing them by hand difficult. For this reason, by examining the HTML text of one or more relevant image data, a regular expression that allows access to the relevant images is automatically created. In the study carried out using genetic algorithms, it was aimed to produce a regular expression that provides access to the most relevant image according to the principle of elimination of the bad and survival of the best. The data set used in the study contains HTML codes of image data collected from 200 websites from 58 different countries, and there are 100 pages for each site. There are 22,682 relevant image data in the data set, which contains a total of 635,015 relevant and irrelevant image data. Each image data is encoded with 30 features. Three of these features were used in the study. In the findings obtained in the study, as a result of the tests carried out with the model designed using the Python programming language, it was observed that the rate of accessing the relevant images for 200 websites was 98%.
Benzer Tezler
- Genetik algoritma tabanlı akıllı test sayfası üretimi
Genetic algorithm based intelligent test paper generation
UFUK TÜL
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ADEM TUNCER
- Makine öğrenmesi algoritmaları kullanarak web hizmetlerinde XSS saldırı tespiti
XSS attack detection on web services using machine learning algorithms
MAHSA KHANOGHLAN
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar ÜniversitesiFen Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NURİ BİNGÖL
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- Dinamik gezgin satıcı probleminin çözümü için bir eniyileme kütüphanesinin tasarımı ve görsel yazılım geliştirme ortamı ile birlikte gerçekleştirimi
Design and implementation of an optimization library with visual software development environment for the solution of dynamic traveling salesman problem
BARIŞ ÖZKAN
Yüksek Lisans
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AYBARS UĞUR
- Öznitelik seçme teknikleri ve genetik algoritma kullanılarak etkin arapça metin sınıflandırması
Efficient arabic text classification using feature selection techniques and genetic algorithm
AHMED HASHIM KAREEM AL-DULAIMI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT OKKALIOĞLU