Geri Dön

Web içerik sınıflandırması için makine öğrenmesi

Machine learning for web content classification

  1. Tez No: 634857
  2. Yazar: KENAN ENES AYDIN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SEFER BADAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Uygulamaları Ana Bilim Dalı
  12. Bilim Dalı: Bilgi ve Haberleşme Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Bu çalışmanın amacı, içerik türü bilinmeyen web sitelerinin sınıflandırılmasıdır. Metin içeriği baz alınarak uygulanacak analiz ve öğrenme teknikleriyle, mevcut ve her gün bir yenisi daha eklenen web siteleri sınıflandırılmakta ve kategori isimleriyle etiketlenmektedir. Çalışma çeşitli makine öğrenmesi algoritmaları kullanılarak web sitelerinden elde edilen metinlerin içerik türünü tahmin etmeyi amaçlamaktadır. Bu çalışmada kullanılan veri seti 30 bin web sayfasına ait HTML ham metinlerinin ön işlem aşamalarından geçirilmesi ile oluşturulan tekil anlamlı kelime gruplarını ihtiva eden metinlerden meydana gelmektedir. Bu metinler internet kullanım alışkanlıkları ve pedagojik yönelimler dikkate alınarak belirlenen 17 farklı kategori ismiyle etiketlenmiştir. Ardından bu metinler üzerinden n-gram ile öznitelik çıkarımı yapılmıştır. Çıkarılan bu öznitelikler üzerinden sistem Lojistik Regresyon, Destek Vektör Makineleri, Karar Ağaçları, Rassal Orman, Naif Bayes, Sinir Ağları, En Yakın Komşuluk ve Bire Karşı Tümü olmak üzere 8 farklı makine öğrenmesi tekniği üzerinde çapraz doğrulama ile test edilmiş ve sonuçlar farklı metrikler için incelenmiştir.

Özet (Çeviri)

This study aims to classify websites whose content type is uncertain. With the analysis and learning techniques based on the content of the text, the existing and added web sites added every day will be labeled with category names. The study aims to estimate the content type of texts from websites using various machine learning algorithms. The data set used in this study consists of texts containing singular meaningful word groups created by passing HTML raw texts of 30 thousand web pages through pretreatment stages. These texts are labeled with 17 different category names, which are determined taking into account the internet usage habits and pedagogical orientations.Then, feature extraction was performed with n-gram from these texts. With these extracted features, the system was tested with by cross validation on 8 different machine learning techniques including Logistic Regression, Support Vector Machines, Decision Trees, Random Forest, Naive Bayes, Neural Networks, Nearest Neighborhood, All Against One. The results were examined for 2 different metrics.

Benzer Tezler

  1. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  2. İçerik tabanlı web sayfası kategorizasyonu

    Content based web page categorization

    EBUBEKİR BÜBER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  3. Improving educational search and question answering

    Eğitsel arama ve soru cevaplandırmanın geliştirilmesi

    TOLGA YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  4. Metin madenciliği ve makine öğrenmesi ile internet sayfalarının sınıflandırılması

    Web page classification using text mining and machine learning

    İLKER ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri MühendisliğiHacettepe Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OUMOUT CHOUSEIN OGLOU

  5. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ