Web içerik madenciliği ve konu sınıflandırılması
Web content mining and subject classification
- Tez No: 244525
- Danışmanlar: YRD. DOÇ. DR. CEMAL KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
İnternet çok büyük bir bilgi deposudur. İnternetteki bu bilgiler büyük olduğu kadar düzensiz ve birbirinden bağımsız oluşturulmuş bilgilerdir. Bu yönüyle web deki bilgiler tamamen, anlamlı ve işe yarayan bilgiler değildir. Bu büyük düzensiz verilerden anlamlı bilgilerin elde edilebilmesi için, günümüze kadar değişik metotlar denenmiştir. Web İçerik Madenciliği, World Wide Web deki bütün dokümanları (metin, resim, ses, görüntü v.s.) inceleyerek, bu dokümanların içerikleri arasındaki ilişkisel benzerlikleri ve farklılıkları ortaya çıkaran bir metottur. Böylece birbiriyle gerçek anlamda ilişkili ve aynı konuda olan sayfalar, kendi içinde sınıflandırılabilir. Sayfaların içeriği analiz edilir ve sayfanın temeline inilerek gerçekte sayfanın hangi konuyu içerdiğine bakılır. Bu çalışmada, web ortamları için, Google arama motoru ile bütünleşik, bir konu sınıflandırma sistemi geliştirilmiştir.Ayrıca metin sınıflandırma da kullanılan Navie Bayes, Destek vektör makinası, K- en yakın komşuluk algoritması ve karar ağacı algoritmalarının sınıflandırma performansı test edilmiş ve sonuçlar karşılaştırılmıştır.Yapılan analiz sonucunda sayfanın gerçekte hangi konu ile ilgili olduğu tahmin edilmiştir. Yapılan bu tahminlerin, web ortamında, kullanıcıların aradığı bilgilere daha kestirme ulaşmasına yardımcı olacağı düşünülmektedir.
Özet (Çeviri)
Internet is an enormous information resource. The vast amount information on the internet is unsystematic and independent from each other as well. This information is not also meaningful and usable in this respect. Several methods have been applied to obtain meaningful information from this disordered data accumulation. Web content mining is a method that discovers similarities and differences between those documents such as text, picture, video etc by analyzing them. In this manner, documents and pages which are truly related and about the same subject can be classified.Hence, the contents of pages are analyzed and the real content of the pages are categorized. In this study, the pages are classified by taking into account certain criteria, and results of the classification which subjects of the pages, are determined related to the real content of the pages. Text categorization techniques which are used in this study (Naive Bayes, K- Nearest Neighbor, Support Vector Machine and Decision Trees) are examined on web documents for classification of the subject of the documents. These techniques have also been compared with each other. Thus, the web users may utilize these results to get directly aimed information in search of data.
Benzer Tezler
- Sentimedia: Opinion mining and sentiment analysis on social media
Sentimedia: Sosyal medyada fikir madenciliği ve duygu analizi
SÜLEYMAN FATİH GİRİŞ
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ZEYNEP ORHAN
- Finding and evaluating patterns in web repository using database technology and data mining algorithms
Veri tabanı teknolojisi ve veri madenciliği algoritmaları kullanarak web ortamındaki veriden paternler bulmak ve değerlendirmek
BELGİN ÖZAKAR
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HALİS PÜSKÜLCÜ
- Web mining issues: Topic finding and focused crawling evaluation
Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi
ERAY ULUHAN
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiY.DOÇ.DR. BERTAN BADUR
- Elektronik veritabanlarının veri madenciliği yöntemi ile analize edilmesi
Analysis of electronic databases with data mining method
ERDEM KARAASLAN
Yüksek Lisans
Türkçe
2019
Bilgi ve Belge YönetimiBahçeşehir ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
PROF. DR. TUFAN ADIGÜZEL
- İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama
Application of artificial neural networks for web content mining
GÜLŞAH AYNEKİN
Yüksek Lisans
Türkçe
2006
Endüstri ve Endüstri MühendisliğiUludağ ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. SEDA ÖZMUTLU