Derin öğrenme modelleri ile web sayfası sınıflandırma
Web page classification with deep learning models
- Tez No: 520338
- Danışmanlar: DR. ÖĞR. ÜYESİ EYLEM YÜCEL DEMİREL, DR. ÖĞR. ÜYESİ TOLGA ENSARİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 49
Özet
Günümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir şekilde kategorize edilmeleri önem kazanmıştır. Bu tez çalışmasında 15 kategoriye ayrılmış olan web sayfalarını içeren veri kümesinden makine öğrenmesi yöntemleriyle sınıflandırma modelleri oluşturulmuştur. Web sayfası sınıflandırma çalışmalarında yaygın olarak kullanılan n-gram modellerinden farklı olarak derin öğrenme modelleri kullanılmıştır. Web sayfalarını sınıflandırmak için veri kümesindeki URL'ler ve ait oldukları kategoriler kullanılmıştır. URL bilgilerinden web sayfalarının metinleri elde edilerek eğitim veri kümesi oluşturulmuştur. Oluşturulan eğitim veri kümesi metin sınıflandırma yöntemleriyle sınıflandırılmıştır. Çalışmamızda metin sınıflandırma alanında en başarılı derin öğrenme modellerinden olan CNN (Konvolüsyonel yapay sinir ağları) ve LSTM (Uzun kısa vadeli hafıza ağları) modelleri kullanılmıştır. Hem CNN modeli hem de LSTM modeli için parametre optimizasyonları yapılmış ve en iyi sonuçları veren parametreler belirlenmiştir. Modellerin değerlendirmeleri f1 skorları ve karmaşıklık matrisleri ile yapılmıştır. Her iki derin öğrenme modeli için de hem ikili hem de çoklu sınıflandırma modelleri oluşturulmuştur. CNN ve LSTM ile oluşturulan tüm modellerin başarıları birbirleriyle karşılaştırılmıştır. Oluşturduğumuz ikili sınıflandırma modeli aynı veri kümesiyle web sayfası sınıflandırma yapan başka bir çalışmayla da karşılaştırılmıştır ve n-gram modellerine göre daha başarılı sınıflandırma modelleri elde edilmiştir.
Özet (Çeviri)
Nowadays, millions of websites are widely used on the internet network to access information. The classification of these web pages, whose numbers are increasing day by day, has become important in order to used more effectively. In this thesis, classification models were created by using machine learning methods from the data set containing web pages which are divided into 15 categories. In our study, differently from N-gram models, which are widely used in web page classification studies, deep learning models are used. The URLs in the dataset and the categories they belong to are used to classify web pages. Training data set was created by extracting texts of web pages from URL information. The generated training data set is classified by text classification methods. In our study, CNN (Convolutional Neural Network) and LSTM (Long Short Term Memory) models, which are successful deep learning models in the field of text classification, are used. Parameter optimizations have been performed for both the CNN model and the LSTM model. The parameters, which give the best results, have been determined. Evalution of models were made with f1 scores and complexity matrices. Binary and multi-class classification models have been created for both deep learning approaches. The successes of all models created with CNN and LSTM are compared with each other. The binary classification model we created is also compared with another study that classifies the web page with the same data set and more successful classification models than n-gram models were obtained.
Benzer Tezler
- Detection of phishing web pages by combining semantical and visual information
Kimlik avcısı web sayfalarının anlamsal ve görsel bilgiyle tespiti
AHMAD HANI ABDALLA ALMAKHAMREH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET SELMAN BOZKIR
- İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti
Anomaly detection with machine learning on air conditioning systems
REFİK KİBAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR
- Kuvvetlendirilmiş ve çok katlı dokuma yüzey tasarımı eğitiminde web destekli bir uygulama
A web assisted application in the education of strengthened and multiplied weaving surfaces design
ZEYNEP BALKANAL
Doktora
Türkçe
2010
El SanatlarıGazi ÜniversitesiEl Sanatları Eğitimi Ana Bilim Dalı
PROF. DR. HALİDE SARIOĞLU
- Açık kaynak istihbaratı (OSINT) için Türkçe içerik temelli kişilik özellikleri tahmini
Prediction of Turkish content-based personality traits for open source intelligence (OSINT)
MUHAMMED ALİ KOŞAN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. HACER KARACAN
DR. ÖĞR. ÜYESİ BURCU AYŞEN ÜRGEN
- Derin öğrenme yöntemleri ile beyin MRI görüntülerinde anomali tespiti
Anomaly detection in brain MRI images with deep learning methods
EBRU AYDOĞAN DUMAN
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEREF SAĞIROĞLU
DR. ÖĞR. ÜYESİ EMRAH ÇELTİKÇİ