Geri Dön

Dimensionality reduction for web page classification

Web sayfası sınıflandırması için boyut indirgenmesi

  1. Tez No: 473008
  2. Yazar: MOHAMED BASSIROU CISSE
  3. Danışmanlar: Assoc. Prof. Dr. SELMA AYŞE ÖZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 84

Özet

Web sayfası sınıflandırması; bir Web sayfasını, bir ya da daha çok ön-tanımlı kategoriye ayırma işlemidir. Diğer sınıflandırma işlemleri gibi bu işlem, veri ön-işleme, özellik seçimi, sınıflandırma ve değerlendirme adımlarını içerir. Sınıflandırma adımında hesaplama hızı ve doğruluğu artırmak için sınıflandırıcıların Web sayfalarından seçilmiş temsil gücü yüksek ve iyi niteliklerle öğrenilmesi gerekir. Bu çalışmanın amacı; sınıflandırıcıların çalışma hızını ve doğruluğunu için Web sayfası sınıflandırma probleminin boyutunu indirgemeyi sağlayacak yeni filtre tabanlı nitelik seçimi yöntemlerini geliştirmektir. Denetimli sınıflandırma algoritmaları olarak destek vektör makineleri, naive Bayes multinomial ve karar ağacı kullanılmıştır. Deneyler ve değerlendirmeler için Konferens ve WebKB veri kümeleri kullanılmıştır. Geliştirdiğimiz yöntemlerin sınıflandırma başarını değerlendirmek için, yaygın olarak kullanılan kazanç oranı (gain ratio), ki-kare (chi-square), korelasyon filtre (correlation filter) ve tahliye(relief) gibi filtre tabanlı yöntemlerin performanslarıyla karşılaştırılmıştır. Performans ölçütü olarak makro-ortalama F-ölçeği kullanılmış ve dört katlı çapraz doğrulama işlemi uygulanmıştır. Deneysel sonuçlar geliştirdiğimiz yöntemlerin iyi olduğunu ve Web sayfası sınıflandırmasında nitelik seçici olarak kullanılabileceğini göstermiştir.

Özet (Çeviri)

Web page classification is the mechanism of assigning a Web page to one or more predefined category. Like other classification tasks, it involves data preprocessing, feature selection, classification and evaluation steps. In the classification step to improve run time performance and accuracy, the classifier must be learned by using representative features selected from the Web pages. The aim of this thesis is to develop some filter-based feature selection methods to reduce dimensionality of Web pages classification problem in order to improve run time performance and accuracy of the classifiers. As supervised classification algorithms, naïve Bayes multinomial, support vector machine and decision trees are used. For the experiments and evaluations Conference and WebKB datasets are used. To evaluate the classification performances of our developed methods, they are compared with classification performances of the well-known filter-based methods that are chi-square, relief, gain ratio, and correlation filter. As performance measure, Macro-average F-measure is used and four folds cross validation is applied. The experimental results showed that, our developed methods are good and can be used as feature selectors for Web page classification.

Benzer Tezler

  1. Identifying ımage related sentences in news articles

    Haber makalelerinde görüntü ile i̇lgili cümlelerin belirlenmesi

    MELİKE ESMA İLTER GÜLAÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN ERSOY

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  2. Metin sınıflandırmada boyut azaltmanın etkisi ve özellik seçimi

    Effetcts of dimensionality reduction and feature selection in text categorization

    OSMAN DURMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HASAN ŞAKİR BİLGE

  3. Oyun karakteri üretimi için üretken modeller

    Generative models for game character generation

    FERDA GÜL AYDIN EMEKLİGİL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. İLKAY ÖKSÜZ

  4. Türkiye'de yönetim bilişim sistemleri alanında yapılan lisansüstü tezlerin metin madenciliği yöntemleri ile analizi

    Analysis of postgraduate theses in the field of management information systems in Turkey with text mining methods

    GÖKTUĞ İLISU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Yönetim Bilişim SistemleriGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. NURSAL ARICI

  5. Metin sınıflama için yeni bir özellik çıkarım yöntemi

    A new method on feature extraction for text classification

    GÖKSEL BİRİCİK

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. A. COŞKUN SÖNMEZ