Geri Dön

Derin öğrenme modelleri ile web sayfası sınıflandırma

Web page classification with deep learning models

  1. Tez No: 520338
  2. Yazar: MEHMET SALİH KURT
  3. Danışmanlar: DR. ÖĞR. ÜYESİ EYLEM YÜCEL DEMİREL, DR. ÖĞR. ÜYESİ TOLGA ENSARİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 49

Özet

Günümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir şekilde kategorize edilmeleri önem kazanmıştır. Bu tez çalışmasında 15 kategoriye ayrılmış olan web sayfalarını içeren veri kümesinden makine öğrenmesi yöntemleriyle sınıflandırma modelleri oluşturulmuştur. Web sayfası sınıflandırma çalışmalarında yaygın olarak kullanılan n-gram modellerinden farklı olarak derin öğrenme modelleri kullanılmıştır. Web sayfalarını sınıflandırmak için veri kümesindeki URL'ler ve ait oldukları kategoriler kullanılmıştır. URL bilgilerinden web sayfalarının metinleri elde edilerek eğitim veri kümesi oluşturulmuştur. Oluşturulan eğitim veri kümesi metin sınıflandırma yöntemleriyle sınıflandırılmıştır. Çalışmamızda metin sınıflandırma alanında en başarılı derin öğrenme modellerinden olan CNN (Konvolüsyonel yapay sinir ağları) ve LSTM (Uzun kısa vadeli hafıza ağları) modelleri kullanılmıştır. Hem CNN modeli hem de LSTM modeli için parametre optimizasyonları yapılmış ve en iyi sonuçları veren parametreler belirlenmiştir. Modellerin değerlendirmeleri f1 skorları ve karmaşıklık matrisleri ile yapılmıştır. Her iki derin öğrenme modeli için de hem ikili hem de çoklu sınıflandırma modelleri oluşturulmuştur. CNN ve LSTM ile oluşturulan tüm modellerin başarıları birbirleriyle karşılaştırılmıştır. Oluşturduğumuz ikili sınıflandırma modeli aynı veri kümesiyle web sayfası sınıflandırma yapan başka bir çalışmayla da karşılaştırılmıştır ve n-gram modellerine göre daha başarılı sınıflandırma modelleri elde edilmiştir.

Özet (Çeviri)

Nowadays, millions of websites are widely used on the internet network to access information. The classification of these web pages, whose numbers are increasing day by day, has become important in order to used more effectively. In this thesis, classification models were created by using machine learning methods from the data set containing web pages which are divided into 15 categories. In our study, differently from N-gram models, which are widely used in web page classification studies, deep learning models are used. The URLs in the dataset and the categories they belong to are used to classify web pages. Training data set was created by extracting texts of web pages from URL information. The generated training data set is classified by text classification methods. In our study, CNN (Convolutional Neural Network) and LSTM (Long Short Term Memory) models, which are successful deep learning models in the field of text classification, are used. Parameter optimizations have been performed for both the CNN model and the LSTM model. The parameters, which give the best results, have been determined. Evalution of models were made with f1 scores and complexity matrices. Binary and multi-class classification models have been created for both deep learning approaches. The successes of all models created with CNN and LSTM are compared with each other. The binary classification model we created is also compared with another study that classifies the web page with the same data set and more successful classification models than n-gram models were obtained.

Benzer Tezler

  1. Detection of phishing web pages by combining semantical and visual information

    Kimlik avcısı web sayfalarının anlamsal ve görsel bilgiyle tespiti

    AHMAD HANI ABDALLA ALMAKHAMREH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET SELMAN BOZKIR

  2. İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti

    Anomaly detection with machine learning on air conditioning systems

    REFİK KİBAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK

    DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR

  3. Kuvvetlendirilmiş ve çok katlı dokuma yüzey tasarımı eğitiminde web destekli bir uygulama

    A web assisted application in the education of strengthened and multiplied weaving surfaces design

    ZEYNEP BALKANAL

    Doktora

    Türkçe

    Türkçe

    2010

    El SanatlarıGazi Üniversitesi

    El Sanatları Eğitimi Ana Bilim Dalı

    PROF. DR. HALİDE SARIOĞLU

  4. Açık kaynak istihbaratı (OSINT) için Türkçe içerik temelli kişilik özellikleri tahmini

    Prediction of Turkish content-based personality traits for open source intelligence (OSINT)

    MUHAMMED ALİ KOŞAN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. HACER KARACAN

    DR. ÖĞR. ÜYESİ BURCU AYŞEN ÜRGEN

  5. Derin öğrenme yöntemleri ile beyin MRI görüntülerinde anomali tespiti

    Anomaly detection in brain MRI images with deep learning methods

    EBRU AYDOĞAN DUMAN

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEREF SAĞIROĞLU

    DR. ÖĞR. ÜYESİ EMRAH ÇELTİKÇİ