Web mining issues: Topic finding and focused crawling evaluation
Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi
- Tez No: 188799
- Danışmanlar: Y.DOÇ.DR. BERTAN BADUR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2006
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Örün madenciliği, veri madenciliği ve düzyazı madenciliği teknikleri kullanılarak yarıyapılanmış ya da hiç yapılanmamış örün dökümanları ve servislerinden otomatik olarak bilgiortaya çıkarmak ve elde etmektir. Örün madenciliği hakındaki bu çalışma iki bölümdenoluşmaktadır; örün yapı madenciliği ve örün içerik madenciliği. lk bölümde, en çok kabulgörmüş olan odaklanmış arama algoritmaları ile basit ağaç izleme algoritmaları, sayfa ilgililikderecelerine, anahtar kelime içermelerine ve isabet oranlarına göre karşılaştırılmışlardır. URLiçerikleri girdi olarak kullanıldıklarında tüm kriterler için en yüksek performans değerlerineulaşılmıştır. kinci bölümde, örün sayfaları üzerinden bir otomatik konu bulma metodolojisiönerilmiştir. Bir ara motorundan dönen HTML sayfalarındaki sadece liste maddelerininişlenmesiyle, kullanıcı tarafından belirlenmiş olan bir konu ile ilgili önemli başlıklarbulunabilir Bu metodoloji farklı parametreler-sayfa sayısı, farklı konular, kök bulmauygulaması, vb.- kullanılarak test edilmiştir. Bulunan aday kelimeler ilgililik puanlamalarınagöre sıralandıklarında kullanıcının belirlediği kelime ile yüksek doğruluk oranlarıgöstermişlerdir.
Özet (Çeviri)
Web mining is defined as the process of using data mining techniques to automaticallydiscover and extract information from semi- or unstructured Web documents and services.This study on Web mining consists of two sections, covering Web structure mining and Webcontent mining. In the first section, most widely accepted focused crawling algorithms andsimple tree traversing algorithms are compared based on their page relevance, keywordpredicate satisfaction and hit ratio criteria. Using the URL tokens as an input resulted inhigher performances for all criteria. In the second part, an automatic topic findingmethodology through Web pages is proposed. Processing only list items on HTML pagesreturned from a search engine, it is expected to find related key concepts on a user-definedtopic. The methodology is experimented using different parameters, such as number of pages,different keywords, stemming implementations, etc. The candidate concepts ordered inrelevancy scores represent a high precision on user-defined topic.
Benzer Tezler
- Çevrimiçi yorumların metin madenciliği ile analizi: İstanbul'daki alışveriş merkezleri üzerine bir çalışma
Analysis of online reviews with text mining: A study on shopping centers in Istanbul
NERGİZ SÖNMEZ
Yüksek Lisans
Türkçe
2017
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAŞAR ÖZTAYŞİ
- İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
- Veri analitiğinin ekonomik etkileri: İnternet yayıncılığında metin tabanlı öneri motoru örneği
Economic effects of data analytics: Text based recommendation engine example in internet publishing
AHMET TEZCAN TEKİN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. NEDİME LERZAN ÖZKALE
DOÇ. DR. BAŞAR ÖZTAYŞİ
- Eğitimsel veri madenciliği ve bir uygulaması
Educational data mining and an application
YASEMİN YAKUPOĞLU
Yüksek Lisans
Türkçe
2018
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAŞAR ÖZTAYŞİ
- Veri madenciliği ile kanser tanısı
Cancer diagnoses via data mining
ZEHRA KARAPINAR ŞENTÜRK
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. RESUL KARA