Geri Dön

Web sayfalarının gizli anlam analizi yaklaşımıyla otomatik olarak sınıflandırılması

Latent semantic analysis approach for automatic classification of web pages contents

  1. Tez No: 344009
  2. Yazar: ELVAN DUMAN
  3. Danışmanlar: PROF. DR. HASAN ERBAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Kırıkkale Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Bilgisayar ve ağ teknolojisinin hızlı gelişimi İnternet?in popülaritesini arttırmaktadır. İnternet üzerindeki bilgi miktarının devasa artışı ve web sayfalarının barındırdığı gürültülü bilginin çeşitliliği nedeniyle web sayfalarının içerik sınıflandırması doğal metin sınıflandırmasına göre daha karmaşık ve zordur. Geleneksel bilgi alma metotları dokümanların sınıflandırılabilmesi için terimlerin doküman içerisinde bulunmasını kullanır fakat bunun sonucunda genellikle ilgisiz web sayfaları sonuç olarak döndürülür. Bu çalışmada, web sayfalarını etkili bir şekilde sınıflandırabilmek için Gizli Anlam Analiz temelli otomatik web sayfası sınıflandırma algoritması geliştirilmiştir. Algoritmanın son aşamasında Destek Vektör Makinesi yardımıyla sınıfları birbirinden ayıran eğri çizilmiştir. Ayrıca başarı ve performansı etkileyen terim ağırlıklandırma ve özellik uzayının yüksek boyutluluk problemine çözüm sağlayan özellik seçim yöntemleri üzerinde çalışılmıştır. Deneysel sonuçlar önerilen sınıflandırma algoritmasının etkinliğini göstermiştir ve dokümanların iyi temsil edildiği bir terim - doküman matrisinin sınıflandırma performansını geliştirdiğini saptamıştır.

Özet (Çeviri)

The fast development on the computer and network technology has increased the popularity of Web. Due to the gigantic increase in the amount of information on the web and a large variety of noisy information embedded in Web pages, Web page classification is getting more sophisticated and difficult than pure-text classification. Traditional information retrieval methods use terms occurring in document to determine the class of the document, but the retrieve usually results in unrelated web pages. In this study, Latent Semantic Analysis based automatic web page classification algorithm developed in order to effectively classify web pages. The curve separates the document classes plotted by the Support Vector Machine in the final step of the algorithm. We also study on the feature weighting and the feature selection methods which are used to reduce the size of the feature space. The experimental results demonstrate that the proposed classification algorithm robust and effectively classify the documents, moreover, the results demonstrate that the better the representation of the documents by term - document matrix results in the better classification.

Benzer Tezler

  1. Detection of phishing web pages by combining semantical and visual information

    Kimlik avcısı web sayfalarının anlamsal ve görsel bilgiyle tespiti

    AHMAD HANI ABDALLA ALMAKHAMREH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET SELMAN BOZKIR

  2. Güvenli siber iletişim amacıyla web adresleri üzerinden yeni bir steganografik yaklaşım

    A new steganographic approach over web addresses for a secure cyber communication

    OĞUZHAN KENDİRLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ESRA ŞATIR

  3. Çevrimiçi yorumların metin madenciliği ile analizi: İstanbul'daki alışveriş merkezleri üzerine bir çalışma

    Analysis of online reviews with text mining: A study on shopping centers in Istanbul

    NERGİZ SÖNMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BAŞAR ÖZTAYŞİ

  4. İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği

    Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece

    SEFA YAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  5. Data mining applications on web usage analysis and user profiling

    İnternet kullanım analizi ve kullanıcı betimleme konularında veri madenciliği uygulaması

    OSMAN ONAT ÖNAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    ÖĞR. GÖR. HALİL HALEFŞAN SÜMEN