Geri Dön

Web içerik madenciliği ve konu sınıflandırılması

Web content mining and subject classification

  1. Tez No: 244525
  2. Yazar: FATİH GÜRCAN
  3. Danışmanlar: YRD. DOÇ. DR. CEMAL KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

İnternet çok büyük bir bilgi deposudur. İnternetteki bu bilgiler büyük olduğu kadar düzensiz ve birbirinden bağımsız oluşturulmuş bilgilerdir. Bu yönüyle web deki bilgiler tamamen, anlamlı ve işe yarayan bilgiler değildir. Bu büyük düzensiz verilerden anlamlı bilgilerin elde edilebilmesi için, günümüze kadar değişik metotlar denenmiştir. Web İçerik Madenciliği, World Wide Web deki bütün dokümanları (metin, resim, ses, görüntü v.s.) inceleyerek, bu dokümanların içerikleri arasındaki ilişkisel benzerlikleri ve farklılıkları ortaya çıkaran bir metottur. Böylece birbiriyle gerçek anlamda ilişkili ve aynı konuda olan sayfalar, kendi içinde sınıflandırılabilir. Sayfaların içeriği analiz edilir ve sayfanın temeline inilerek gerçekte sayfanın hangi konuyu içerdiğine bakılır. Bu çalışmada, web ortamları için, Google arama motoru ile bütünleşik, bir konu sınıflandırma sistemi geliştirilmiştir.Ayrıca metin sınıflandırma da kullanılan Navie Bayes, Destek vektör makinası, K- en yakın komşuluk algoritması ve karar ağacı algoritmalarının sınıflandırma performansı test edilmiş ve sonuçlar karşılaştırılmıştır.Yapılan analiz sonucunda sayfanın gerçekte hangi konu ile ilgili olduğu tahmin edilmiştir. Yapılan bu tahminlerin, web ortamında, kullanıcıların aradığı bilgilere daha kestirme ulaşmasına yardımcı olacağı düşünülmektedir.

Özet (Çeviri)

Internet is an enormous information resource. The vast amount information on the internet is unsystematic and independent from each other as well. This information is not also meaningful and usable in this respect. Several methods have been applied to obtain meaningful information from this disordered data accumulation. Web content mining is a method that discovers similarities and differences between those documents such as text, picture, video etc by analyzing them. In this manner, documents and pages which are truly related and about the same subject can be classified.Hence, the contents of pages are analyzed and the real content of the pages are categorized. In this study, the pages are classified by taking into account certain criteria, and results of the classification which subjects of the pages, are determined related to the real content of the pages. Text categorization techniques which are used in this study (Naive Bayes, K- Nearest Neighbor, Support Vector Machine and Decision Trees) are examined on web documents for classification of the subject of the documents. These techniques have also been compared with each other. Thus, the web users may utilize these results to get directly aimed information in search of data.

Benzer Tezler

  1. Sentimedia: Opinion mining and sentiment analysis on social media

    Sentimedia: Sosyal medyada fikir madenciliği ve duygu analizi

    SÜLEYMAN FATİH GİRİŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ZEYNEP ORHAN

  2. Finding and evaluating patterns in web repository using database technology and data mining algorithms

    Veri tabanı teknolojisi ve veri madenciliği algoritmaları kullanarak web ortamındaki veriden paternler bulmak ve değerlendirmek

    BELGİN ÖZAKAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİS PÜSKÜLCÜ

  3. Web mining issues: Topic finding and focused crawling evaluation

    Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi

    ERAY ULUHAN

  4. Elektronik veritabanlarının veri madenciliği yöntemi ile analize edilmesi

    Analysis of electronic databases with data mining method

    ERDEM KARAASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgi ve Belge YönetimiBahçeşehir Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    PROF. DR. TUFAN ADIGÜZEL

  5. İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama

    Application of artificial neural networks for web content mining

    GÜLŞAH AYNEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Endüstri ve Endüstri MühendisliğiUludağ Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. SEDA ÖZMUTLU