Dimensionality reduction for web page classification
Web sayfası sınıflandırması için boyut indirgenmesi
- Tez No: 473008
- Danışmanlar: Assoc. Prof. Dr. SELMA AYŞE ÖZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Web sayfası sınıflandırması; bir Web sayfasını, bir ya da daha çok ön-tanımlı kategoriye ayırma işlemidir. Diğer sınıflandırma işlemleri gibi bu işlem, veri ön-işleme, özellik seçimi, sınıflandırma ve değerlendirme adımlarını içerir. Sınıflandırma adımında hesaplama hızı ve doğruluğu artırmak için sınıflandırıcıların Web sayfalarından seçilmiş temsil gücü yüksek ve iyi niteliklerle öğrenilmesi gerekir. Bu çalışmanın amacı; sınıflandırıcıların çalışma hızını ve doğruluğunu için Web sayfası sınıflandırma probleminin boyutunu indirgemeyi sağlayacak yeni filtre tabanlı nitelik seçimi yöntemlerini geliştirmektir. Denetimli sınıflandırma algoritmaları olarak destek vektör makineleri, naive Bayes multinomial ve karar ağacı kullanılmıştır. Deneyler ve değerlendirmeler için Konferens ve WebKB veri kümeleri kullanılmıştır. Geliştirdiğimiz yöntemlerin sınıflandırma başarını değerlendirmek için, yaygın olarak kullanılan kazanç oranı (gain ratio), ki-kare (chi-square), korelasyon filtre (correlation filter) ve tahliye(relief) gibi filtre tabanlı yöntemlerin performanslarıyla karşılaştırılmıştır. Performans ölçütü olarak makro-ortalama F-ölçeği kullanılmış ve dört katlı çapraz doğrulama işlemi uygulanmıştır. Deneysel sonuçlar geliştirdiğimiz yöntemlerin iyi olduğunu ve Web sayfası sınıflandırmasında nitelik seçici olarak kullanılabileceğini göstermiştir.
Özet (Çeviri)
Web page classification is the mechanism of assigning a Web page to one or more predefined category. Like other classification tasks, it involves data preprocessing, feature selection, classification and evaluation steps. In the classification step to improve run time performance and accuracy, the classifier must be learned by using representative features selected from the Web pages. The aim of this thesis is to develop some filter-based feature selection methods to reduce dimensionality of Web pages classification problem in order to improve run time performance and accuracy of the classifiers. As supervised classification algorithms, naïve Bayes multinomial, support vector machine and decision trees are used. For the experiments and evaluations Conference and WebKB datasets are used. To evaluate the classification performances of our developed methods, they are compared with classification performances of the well-known filter-based methods that are chi-square, relief, gain ratio, and correlation filter. As performance measure, Macro-average F-measure is used and four folds cross validation is applied. The experimental results showed that, our developed methods are good and can be used as feature selectors for Web page classification.
Benzer Tezler
- Identifying ımage related sentences in news articles
Haber makalelerinde görüntü ile i̇lgili cümlelerin belirlenmesi
MELİKE ESMA İLTER GÜLAÇ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi
Effetcts of dimensionality reduction and feature selection in text categorization
OSMAN DURMAZ
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Oyun karakteri üretimi için üretken modeller
Generative models for game character generation
FERDA GÜL AYDIN EMEKLİGİL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
DOÇ. DR. İLKAY ÖKSÜZ
- Türkiye'de yönetim bilişim sistemleri alanında yapılan lisansüstü tezlerin metin madenciliği yöntemleri ile analizi
Analysis of postgraduate theses in the field of management information systems in Turkey with text mining methods
GÖKTUĞ İLISU
Yüksek Lisans
Türkçe
2024
Yönetim Bilişim SistemleriGazi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. NURSAL ARICI
- Metin sınıflama için yeni bir özellik çıkarım yöntemi
A new method on feature extraction for text classification
GÖKSEL BİRİCİK
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. A. COŞKUN SÖNMEZ