Geri Dön

İçerik tabanlı web sayfası kategorizasyonu

Content based web page categorization

  1. Tez No: 540459
  2. Yazar: EBUBEKİR BÜBER
  3. Danışmanlar: PROF. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 130

Özet

Web Sayfalarının Sınıflandırılması, her geçen gün daha da önem kazanan bir makine öğrenmesi problemidir. Web sayfalarının kategorize edilmesi, verimli İnternet kullanımı, spam filtreleme ve daha birçok uygulama alanı için faydalı bilgiler sağlamaktadır. Milyonlarca web sitesi arasından kullanıcının aradığı konuyla ilgili sonuçların hızlı bir şekilde bulunması, arama motorları için çözülmesi gereken bir problemdir. Web sayfası sınıflandırma, zararlı içeriğe sahip web sayfalarının kullanıcı tarafından görüntülenmeden önce engellenmesi ile siber güvenlik uygulamaları tarafından da kullanılabilmektedir. Web sayfası sınıflandırması, birçok farklı uygulama alanı için temel oluşturabilecek faydalı bilgiler sağlayan bir Bilgi Çıkarımı (Information Extraction) uygulamasıdır. Bir diğer uygulama alanına ise ağda anomali tespiti için kullanıcının internet kullanım profilinin oluşturulması örnek olarak verilebilir. Bu çalışmada, web sayfalarının sınıflandırılmasına yönelik bir sistem geliştirilmiştir. Geliştirilen sistemde derin öğrenme tabanlı yaklaşımlar test edilmiş ve kullanılmıştır. Web sayfalarının sınıflandırılabilmesi için bir web sayfasının içeriğinde yer alan meta etiketler adı verilen başlık (title), açıklama (description) ve anahtar kelimeler (keywords) gibi metinsel bilgiler kullanılmıştır. Yapılan çalışmanın testleri sırasında Yinelemeli Sinir Ağı (YiSA, Recurrent Neural Networks) tabanlı derin öğrenme mimarisi kullanılmıştır. Bu derin öğrenme mimarisi üzerinde bazı hiperparametre ayarlamaları gerçekleştirilerek performans analizi de yapılmıştır. Ayrıca, geliştirilen sistemde Öğrenme Transferi denenmiştir. Öğrenme Transferi, bir problemi çözmek için önceden eğitilmiş parametreler kullanılarak bir makine öğrenmesi modeli oluşturma yaklaşımına verilen isimdir. Elde edilen sonuçlara göre, Web sayfası sınıflandırma sisteminin başarı oranı yaklaşık %85 olarak elde edilmiştir. Gerçekleştirilen testler, CPU ve GPU üzerinde çalıştırılmış olup, bu iki farklı donanım üzerinde elde edilen çalışma sürelerine ilişkin performans karşılaştırması da ayrıca yapılmıştır.

Özet (Çeviri)

Classification of Web Pages is a machine learning problem which gets more and more important every day. Categorizing web pages provides useful information for efficient internet use, spam filtering and many other application areas. Finding results quickly from the millions of websites users are looking for is a problem that must be solved for search engines. Web page classification can also be used by cyber security applications by blocking web pages with malicious content before they are displayed by the user. Web page classification is an Information Retrieval application that provides useful information that can be a basis for many different application domains. Another example of application is the creation of an internet usage profile of a user for network anomaly detection. In this study, a system for classifying web pages was developed. Deep learning-based approaches have been tested and used in the developed system. Textual information in the content of the web page is used to classify web pages. For the classification mechanism, the meta tags contained in the web page are used. The meta tags used for classification are title, description, keywords. During the tests, a deep learning architecture based on Recursive Neural Networks (RNN) was used. Performance analysis has been performed by performing some hyperparameter tuning on this deep learning architecture. In addition, Transfer Learning has been tested in the developed system. Transfer Learning is the name given to the approach of building a machine learning model using pre-trained parameters to solve a problem. According to the results obtained, the success rate of the web page classification system is about 85%. The tests were run on the CPU and GPU, and the performance comparison of the run times obtained on this two different hardware was made.

Benzer Tezler

  1. AJAX tabanlı web sayfalarından veri çıkarımına bir yaklaşım

    An approach to data extraction from AJAX-based web pages

    OĞUZ KIRAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TARIK YERLİKAYA

  2. Web sayfalarının görsel ve yapısal benzerliklerinin incelendiği ve indekslendiği bir arama motorunun tasarımı ve gerçekleştirimi

    Design and implementation of a search engine which the visual and structural similarities of web pages are investigated and indexed

    AHMET SELMAN BOZKIR

    Doktora

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU SEZER

  3. Yenidoğanlarda web tabanlı bireyselleştirilmiş destekleyici gelişimsel bakım programının geliştirilmesi, içerik kalitesi ve kullanılabilirliğinin değerlendirilmesi

    Development of web based individualized supportive developmental care program for newborns, evaluation of content quality and usability

    NİHAL TUNCER

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    HemşirelikSüleyman Demirel Üniversitesi

    Doğum ve Kadın Hastalıkları Hemşireliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ŞERİFE TUTAR

  4. Mentörlük ve oyunlaştırma destekli öğrenci gelişim ve izleme sistemi (MODOGİS)

    Development of student development and monitoring system (MODOGİS) with mentoring and gamification support

    RAMAZAN GİRGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAfyon Kocatepe Üniversitesi

    Bilgisayar Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET KAHRAMAN

  5. PHP, MySQL ve XML tabanlı Türkçe dinamik web sitesi içerik yönetim sistemi: DyNA

    PHP, MySQL and XML based Turkish dynamic web site content management system: DyNA

    İSMAİL KIRBAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgi ve Belge YönetimiKocaeli Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET YILDIRIM