Geri Dön

Web mining: Pattern discovery on the world wide web

Web madenciliği: Web sayfalarında örüntü keşfi

  1. Tez No: 299086
  2. Yazar: MUSTAFA TURAN
  3. Danışmanlar: YRD. DOÇ. DR. DERYA BİRANT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Linguistics, Engineering Sciences
  6. Anahtar Kelimeler: Web Madenciliği, Web İçerik Madenciliği, Web Yapı Madenciliği, Geri Bildirim Madenciliği, Sezgisel Sınıflandırma, Web Mining, Web Content Mining, Web Structure Mining, Feedback Mining, Sentimental Classification
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

Web sayfalarında bulunan sayılamayacak derecede verilerin çokluğu, interneti `Dünya' gezegeninin en büyük veritabanı haline getirmiştir. Bu kadar verideki problem bu verilen düzenli bir veri yapısı içermemesidir. Bu verinin düzenli hale getirilip çeşitli amaçlar için kullanılması amacıyla web madenciliği metotları ortaya çıkmıştır. Web madenciliği veri madenciliği tekniklerinin web sayfaları üzerinde örüntü keşfi amacıyla kullanılması için kullanılan bir tekniktir. Web madenciliği web sayfalarından ve web servislerinden veri toplamak ve veriyi incelemek için güçlü bir araştırma alanıdır. Web madenciliğinin web sayfalarından ve servislerinden veriyi elde etme, elde edilen veri üzerindeki yapıyı analiz etme gibi metotları vardır. Bunların dışında, web madenciliği web sunucu kayıtlarını ve kullanıcı oturumlarından yararlanarak kullanıcılar ve web sayfasının yapısı hakkında veri elde etme özelliğine sahiptir.Her ne kadar web madenciliği teknikleriyle ile web sayfalarında veri elde etmek mümkün olsa da bu verileri tam manada anlamlı hale getirmek için makine öğrenme teknikleriyle kullanmak gerekmektedir. Bu verileri anlamlı hale getirmek için birçok teknik vardır. Makine öğrenme teknikleri arasında sınıflandırma, metin tabanlı verileri içeriklerine göre sınıfını belirlemek için kullanılan en popular metotlardan biridir.Bu tez web madenciliği teknikleriyle makine öğrenme tekniklerini birlikte kullanarak hibrit bir yapıyı amaçlamaktadır. Uygulama çeşitli web sayfalarından ve servislerinden Türkçe yazılmış verileri elde edip, bu verileri düzenleyerek servis halinde sunmaktadır. Bu çalışma temelde, web içerik madenciliği, web yapı madenciliği tekniklerini kullanarak web sayfalarından veri elde edip bu verileri yapısal olarak incelemektedir. Bunun dışında, yazı dili tanıma, Türkçe kelime doğrulama, Türkçe ek kök ayırma gibi metin işlemleri için çeşitli iç ve dış web servislerini kullanmaktadır. Dahası Naïve Bayes ve `Destek Vektör Makine'lerini TF-TDF (Terim Frekansı ? Ters Doküman Frekansı) ağırlıklandırma yöntemi ile kullanarak web sayfalarından elde edilen veriler üzerinde sezgisel sınıflandırma yapmaktadır.Çalışmada öncelikle, verinin nasıl ve nerden elde edildiği hakkında bilgi verilmekte, ikincil olarak bu veriler üzerinde yapılan metin operasyonları detaylı bir şekilde doğruluk oranları hesaplanarak açıklanmaktadır. Son olarak ise, elde edilen metin dokümanlar üzerinde birçok açıdan sezgisel sınıflandırma yapılmakta ve doğruluk değerleri verilmektedir.

Özet (Çeviri)

The uncountable size of the data in the World Wide Web (WWW) nowadays makes it the largest cloud database that ever existed on Earth. The problem with data is that it is not a structured database, which makes it meaningless. To make the data usable, web mining methods are created. Web mining is the application of data mining techniques to discover patterns from the World Wide Web (WWW). Web mining is a powerful research area to gather and examine content from web pages or web services. It has methods for information retrieval from web pages and analyses the structure of gathered documents. Moreover, web mining gathers data related to the structure of a website and its users using the web-server logs and session logs.However, although reaching data from the WWW is possible with web mining techniques, the reached data might not be sensible or meaningful without machine learning techniques. To make the data sensitive and meaningful, there exist a lot of methods depending on one?s aims. Classification, which can classify web data according to its content, is one of most popular data mining methods in machine learning.This thesis proposes the hybrid combination of web mining techniques and machine learning techniques. The developed approach can gather Turkish text data from various web pages and web services and serve it in a structured data format. The study in this thesis basically covers web content mining, web structure mining for gathering data and analyzing the structure of web pages and services. It also uses various internal and external web services for language detection, Turkish spell-checking, Turkish `Part of Speech Tagging? (pos-tagging) and stemming operations. Moreover, the study uses two machine learning techniques, which are Naïve Bayes and `Support Vector Machines? with weighting method of TF-IDF (Term Frequency ? Inverse Document Frequency)?, to sentimentally classify the data gathered from web pages.In this work, firstly, how and where the data is gathered is given. Secondly, the operations over the text data are explained in detail. Then, finally, sentimental classification with accuracy values over the gathered data with multiple perspectives is given.

Benzer Tezler

  1. Clustering web usage transactions for efficient association rule mining

    Verimli eşleştirme sorgusu çıkarımı için web günlük hareketlerinin gruplandırılması

    MEHMET ULUER

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN HÜSEYNOV

  2. Finding and evaluating patterns in web repository using database technology and data mining algorithms

    Veri tabanı teknolojisi ve veri madenciliği algoritmaları kullanarak web ortamındaki veriden paternler bulmak ve değerlendirmek

    BELGİN ÖZAKAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİS PÜSKÜLCÜ

  3. Effective integration of data mining techniques with businessintelligence using web mining

    Başlık çevirisi yok

    OMER MUNEAM MUSHREF

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN NURİ UÇAN

  4. Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi

    Categorizing the Turkish web pages by data mining techniques

    SEÇİL ŞEKERCİ HÜSEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AYLA GÜLCÜ

  5. Link based limited session reconstruction method for mining web usage data

    Linke dayalı güncel oturum oluşturma metodu

    BURAK TIKNAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL HAKKI TOROSLU

    DR. MURAT ALİ BAYIR