Derin öğrenme ile web verisi ayıklama altyapısı geliştirilmesi
Development of a web data extraction infrastructure using deep learning
- Tez No: 663256
- Danışmanlar: PROF. DR. OĞUZ DİKENELLİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Information and Records Management, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Otomatik Veri Çıkarımı, Metin Sınıflandırma, Derin Öğrenme, Konvolüsyonel Sinir Ağı, Sözcük Yerleştirme, Yapay Sinir Ağı, Automatic Data Extraction, Text Classification, Deep Learning, Convolutional Neural Network, Word Embedding, Artificial Neural Network
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 77
Özet
Teknolojinin gelişmesi ile birçok şirket, pazarlamak istedikleri ürünleri e-ticaret siteleri aracılığı ile kullanıcılara sunmaya başlamıştır. Bu süreç sonucunda e-ticaret siteleri kullanıcılarının tüketim eğilimini analiz eden yeni çalışma alanları meydana gelmiştir. Günümüzde webten toplanan HTML sayfalarından bilgi çıkarımı yapan yazılımlar, web geliştiricilerin web sitelerinin tasarımlarını periyodik olarak değiştirmesi sebebi ile otomatik bilgi çıkarımında kullanıma uygun değildir. Web sayfalarında yapılan güncellemelerden etkilenen yazılım sistemleri, yeniden uyarlanmaya ihtiyaç duymaktadır. Bu sebeple web verilerinden otomatik bilgi çıkarımı işlemi, web verisi analizinde önemli bir yer haline gelmiştir. Web sayfalarından bilgi çıkarımı için yapılan çalışmalar teknoloji geliştikçe beklentileri karşılayamaz duruma gelmektedir ya da karmaşık bilgilerin (içerik haritası, renk, ölçü gibi iç içe geçirilmiş birden fazla bloktan oluşan yapılar -Örneğin; small medium ) çıkarımı yapılamamaktadır. Bu çalışmada, moda alanında derin öğrenme yöntemi kullanılarak web sayfalarından otomatik olarak karmaşık bilgi çıkarımı için HTML blok sınıflandırması yapılmış, alana özgü çalışmalarda derin öğrenme tabanlı modellerin güvenilir sonuç verdiği gösterilmiştir. Çalışma kapsamında içerik haritası, renk, ölçü, tanım ve başlık bilgilerinin çıkarılması hedeflenmiştir. Bu çalışmada HTML web sayfaları DOM ağaçlarına dönüştürülmüş ve üzerinde basit bir filtreleme işlemi yapılmıştır. Filtreleme sonrasında oluşan veriler ön işleme adımlarından geçirilmiştir. Dört konvolüsyonel derin öğrenme ağı oluşturulmuş ve sonuçları incelenmiştir. Sonuçlar, konvolüsyonel derin öğrenme ağlarının HTML bloklarını bulmada güvenilir bir yaklaşım olduğunu göstermiştir.
Özet (Çeviri)
When the technology has improved, a lot of companies started to sell their products to consumers using e-commerce websites. As a result of this process, new work areas that analyze the tendency of consumers who use e-commerse websites were formed. Nowadays, software systems that extract information from websites cannot be used in automatic web data extraction because the design of the websites are changed by the developers periodically. The software systems that are affected by the changes are needed to be updated. Because of that, automatic information extraction from web data becomes an important study field. Information extraction studies from web data could not fulfill their promises when the technology has improved or cannot extract complex information like breadcrumb, size and color which consist of multiple nested HTML blocks (i.e.; small medium ). In this study, an HTML block classification-based information extraction approach from fashion websites has been proposed that uses deep learning models and it has been shown that deep learning models give promising results. The study focuses on breadcrumb, color, size, description ve title extraction from the product pages. In this study, HTML web sites are turned to DOM trees and basic filtring are performed. After filtring the unneccessary blocks from the dataset, preproccessing process are followed. Four new convolutional neural networks are implemented and their findings are evaluated. The results show that proposed convolutional models are very effective in identifying HTML blocks.
Benzer Tezler
- Yaşlı bakımında derin öğrenme ile video üzerinden sağlık durumunun takibi
Video surveillance of elderly person aimed to healthcare via deep learning
FAHRİ CİHAN ATTİLA
Yüksek Lisans
Türkçe
2023
Mühendislik BilimleriFırat ÜniversitesiEkobilişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET İLYAS BAYINDIR
- Identification of tea plantation areas using Google cloud based random forest and deep learning
Google bulut servise dayalı rastgele orman ve derin öğrenme ile çay tarım alanlarının belirlenmesi
BERKAY ÖZEN
Yüksek Lisans
İngilizce
2020
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ESRA ERTEN
- Demiryolları için nesnelerin interneti ile uzaktan izlenebilen ray sıcaklığı ve tren hızı ölçüm sistemi tasarımı ve meteoroloji ile saha verisi üzerinden makine öğrenmesi/derin öğrenme ile zamana dayalı ray sıcaklığı tahmini
Designing train speed and rail temperature measurement system with remote monitoring by internet of things and time based prediction of rail temperature with machine learning/deep learning
EREN ERDİ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA TURHAN ÇOBAN
- Hybrid reciprocal recommendation with advanced feature representations
Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri
EZGİ YILDIRIM
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- UR5 işbirlikçi robotla farklı geometrik şekillere sahip nesnelerin sınıflandırılması
Classifying components with different geometric shapes by UR5 cobot
AHMET ARAS AL
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik MühendisliğiHacettepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞÖLEN KUMBAY YILDIZ