Web içerik sınıflandırması için makine öğrenmesi
Machine learning for web content classification
- Tez No: 634857
- Danışmanlar: DR. ÖĞR. ÜYESİ SEFER BADAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilişim Uygulamaları Ana Bilim Dalı
- Bilim Dalı: Bilgi ve Haberleşme Mühendisliği Bilim Dalı
- Sayfa Sayısı: 91
Özet
Bu çalışmanın amacı, içerik türü bilinmeyen web sitelerinin sınıflandırılmasıdır. Metin içeriği baz alınarak uygulanacak analiz ve öğrenme teknikleriyle, mevcut ve her gün bir yenisi daha eklenen web siteleri sınıflandırılmakta ve kategori isimleriyle etiketlenmektedir. Çalışma çeşitli makine öğrenmesi algoritmaları kullanılarak web sitelerinden elde edilen metinlerin içerik türünü tahmin etmeyi amaçlamaktadır. Bu çalışmada kullanılan veri seti 30 bin web sayfasına ait HTML ham metinlerinin ön işlem aşamalarından geçirilmesi ile oluşturulan tekil anlamlı kelime gruplarını ihtiva eden metinlerden meydana gelmektedir. Bu metinler internet kullanım alışkanlıkları ve pedagojik yönelimler dikkate alınarak belirlenen 17 farklı kategori ismiyle etiketlenmiştir. Ardından bu metinler üzerinden n-gram ile öznitelik çıkarımı yapılmıştır. Çıkarılan bu öznitelikler üzerinden sistem Lojistik Regresyon, Destek Vektör Makineleri, Karar Ağaçları, Rassal Orman, Naif Bayes, Sinir Ağları, En Yakın Komşuluk ve Bire Karşı Tümü olmak üzere 8 farklı makine öğrenmesi tekniği üzerinde çapraz doğrulama ile test edilmiş ve sonuçlar farklı metrikler için incelenmiştir.
Özet (Çeviri)
This study aims to classify websites whose content type is uncertain. With the analysis and learning techniques based on the content of the text, the existing and added web sites added every day will be labeled with category names. The study aims to estimate the content type of texts from websites using various machine learning algorithms. The data set used in this study consists of texts containing singular meaningful word groups created by passing HTML raw texts of 30 thousand web pages through pretreatment stages. These texts are labeled with 17 different category names, which are determined taking into account the internet usage habits and pedagogical orientations.Then, feature extraction was performed with n-gram from these texts. With these extracted features, the system was tested with by cross validation on 8 different machine learning techniques including Logistic Regression, Support Vector Machines, Decision Trees, Random Forest, Naive Bayes, Neural Networks, Nearest Neighborhood, All Against One. The results were examined for 2 different metrics.
Benzer Tezler
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- İçerik tabanlı web sayfası kategorizasyonu
Content based web page categorization
EBUBEKİR BÜBER
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
- Improving educational search and question answering
Eğitsel arama ve soru cevaplandırmanın geliştirilmesi
TOLGA YILMAZ
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- Metin madenciliği ve makine öğrenmesi ile internet sayfalarının sınıflandırılması
Web page classification using text mining and machine learning
İLKER ŞAHİN
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri MühendisliğiHacettepe ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. OUMOUT CHOUSEIN OGLOU
- Oyun karakteri üretimi için üretken modeller
Generative models for game character generation
FERDA GÜL AYDIN EMEKLİGİL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. İLKAY ÖKSÜZ