Geri Dön

Web mining issues: Topic finding and focused crawling evaluation

Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi

  1. Tez No: 188799
  2. Yazar: ERAY ULUHAN
  3. Danışmanlar: Y.DOÇ.DR. BERTAN BADUR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2006
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Örün madenciliği, veri madenciliği ve düzyazı madenciliği teknikleri kullanılarak yarıyapılanmış ya da hiç yapılanmamış örün dökümanları ve servislerinden otomatik olarak bilgiortaya çıkarmak ve elde etmektir. Örün madenciliği hakındaki bu çalışma iki bölümdenoluşmaktadır; örün yapı madenciliği ve örün içerik madenciliği. lk bölümde, en çok kabulgörmüş olan odaklanmış arama algoritmaları ile basit ağaç izleme algoritmaları, sayfa ilgililikderecelerine, anahtar kelime içermelerine ve isabet oranlarına göre karşılaştırılmışlardır. URLiçerikleri girdi olarak kullanıldıklarında tüm kriterler için en yüksek performans değerlerineulaşılmıştır. kinci bölümde, örün sayfaları üzerinden bir otomatik konu bulma metodolojisiönerilmiştir. Bir ara motorundan dönen HTML sayfalarındaki sadece liste maddelerininişlenmesiyle, kullanıcı tarafından belirlenmiş olan bir konu ile ilgili önemli başlıklarbulunabilir Bu metodoloji farklı parametreler-sayfa sayısı, farklı konular, kök bulmauygulaması, vb.- kullanılarak test edilmiştir. Bulunan aday kelimeler ilgililik puanlamalarınagöre sıralandıklarında kullanıcının belirlediği kelime ile yüksek doğruluk oranlarıgöstermişlerdir.

Özet (Çeviri)

Web mining is defined as the process of using data mining techniques to automaticallydiscover and extract information from semi- or unstructured Web documents and services.This study on Web mining consists of two sections, covering Web structure mining and Webcontent mining. In the first section, most widely accepted focused crawling algorithms andsimple tree traversing algorithms are compared based on their page relevance, keywordpredicate satisfaction and hit ratio criteria. Using the URL tokens as an input resulted inhigher performances for all criteria. In the second part, an automatic topic findingmethodology through Web pages is proposed. Processing only list items on HTML pagesreturned from a search engine, it is expected to find related key concepts on a user-definedtopic. The methodology is experimented using different parameters, such as number of pages,different keywords, stemming implementations, etc. The candidate concepts ordered inrelevancy scores represent a high precision on user-defined topic.

Benzer Tezler

  1. Çevrimiçi yorumların metin madenciliği ile analizi: İstanbul'daki alışveriş merkezleri üzerine bir çalışma

    Analysis of online reviews with text mining: A study on shopping centers in Istanbul

    NERGİZ SÖNMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BAŞAR ÖZTAYŞİ

  2. İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği

    Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece

    SEFA YAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  3. Veri analitiğinin ekonomik etkileri: İnternet yayıncılığında metin tabanlı öneri motoru örneği

    Economic effects of data analytics: Text based recommendation engine example in internet publishing

    AHMET TEZCAN TEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. NEDİME LERZAN ÖZKALE

    DOÇ. DR. BAŞAR ÖZTAYŞİ

  4. Eğitimsel veri madenciliği ve bir uygulaması

    Educational data mining and an application

    YASEMİN YAKUPOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BAŞAR ÖZTAYŞİ

  5. Veri madenciliği ile kanser tanısı

    Cancer diagnoses via data mining

    ZEHRA KARAPINAR ŞENTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. RESUL KARA