Geri Dön

Categorization of WEB sites in Turkey with SVM

Türkiye'deki WEB sitelerinin SVM algoritması ile sınıflandırılması

  1. Tez No: 151968
  2. Yazar: KADİR ŞİMŞEK
  3. Danışmanlar: PROF. DR. HALİS PÜSKÜLCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2004
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Öz Bu çalışmada, Türkiye'deki“Ar”uzantılı Web sitelerinin SVM (Support Vector Machine) ile sınıflandırılması yapılmıştır. Web 'in kısa bir tanımı yapıldıktan sonra metin sınıflandırması ve web sitesi sınıflandırılması konulan anlatılmıştır. Sınıflandırma işlemi için gerekli kelime ayıklama, kelimelerin ağırlıklarını bulma gibi tüm önkoşullar yerine getirildikten sonra sınıflandırma işlemi tamamlanmıştır. Web 'in devasa yapısı ve kontrol edilemeyen genişlemesi son yıllarda yeni araştırma alanlarının ortaya çıkmasını sağlamıştır. Bu çalışmaların genel tanımı olarak bilinen Web madenciliği web üzerindeki yapı ve hareketleri inceleyerek Web'den anlamlı bilgilerin otomatik bir biçimde alınmasını sağlar. Web madenciliği üç alt daldan oluşmaktadır:“Web Yapı Madenciliği”,“Web İçerik Madenciliği”ve“Web Kullanım Madenciliği”. Bu projede,“Web İçerik Madenciliği”yapılarak Türkiye'deki Web siteleri sınıflandırılmıştır. Sınıflandırma esnasında, yapısal risk minimizasyonu ve istatistik tabanlı denetlemeli öğrenme yöntemi olarak tanımlanan“Support Vector Machine”(SVM) algoritması kullanılmıştır. Bu tezle metin tabanlı bir sınıflandırma yöntemi ile web sitelerinin temalarına göre dağılışları elde edilecek ve aynı zamanda SVM gibi istatistiksel bir programın kullanım sürecinin hangi aşamalardan oluştuğu görülecektir. Sınıflandırma işlemi için Yahoo 'nun üst katmanda yeralan 12 sınıfı kullanılmıştır. Tez sonuçlan ayrıca web siteleri ve içerikleri hakkında özellikle html tasannu ve sayfa yapısı ile ilgili birtakım bilgileri de içermektedir. Metatag kullanım yüzdeleri ve html tasarım yapılan gibi çıkarımlar bu bilgiler içinde yeralmaktadır. Sınıflandırma, sayfaların gövde metni bölümünde yeralan bilgiler ve Thorsten Joachims'in geliştirdiği SVMllght paketi kullanılarak yapılmıştır. Sınıflandırma sonuçlan bazı sınıfların çakıştığım göstermektedir. Sonuçların doğruluk ve kesinlik değerlerinin 60%-80% aralığında olduğu gözlenmiştir. Sınıflandırma sonuçlarına göre html sayfa içeriklerinin homojen olmadığı ortaya çıkmış, bu nedenle sınıflandırma işleminin olumsuz yönde etkilendiği gözlenmiştir. Sınıflandırma sonuçlarının yanısıra, web sitelerinin yaklaşık 17% 'si html çerçevelerini ve 9367 web sitesinin meta- keyword etiketlerini kullandığı sonucuna varılmıştır.

Özet (Çeviri)

ABSTRACT In this study of topic“Categorization of Web Sites in Turkey with SVM”after a brief introduction to what the World Wide Web is and a more detailed description of text categorization and web site categorization concepts, categorization of web sites including all prerequisites for classification task takes part. As an information resource the web has an undeniable importance in human life. However the huge structure of the web and its uncontrolled growth led to new information retrieval research areas to be risen in last years. Web mining, the general name of these studies, investigates activities and structures on the web to automatically discover and gather meaningful information from the web documents. It consists of three subfields:“Web Structure Mining”,“Web Content Mining”and“Web Usage Mining”. In this project, web content mining concept was applied on the web sites in Turkey during the categorization process. Support Vector Machine, a supervised learning method based on statistics and principle of structural risk minimization is used as the machine learning technique for web site categorization. This thesis is intended to draw a conclusion about web site distributions with respect to thematic categorization based on text. The popular web directory Yahoo's 12 top level categories were used in this project. Beside of the main purpose, we gathered several statistical descriptive informations about web sites and contents used in html pages. Metatag usage percentages, html design structures and plug-in usage are some of these information. The processes taken through solution, start with employing a web downloader which downloads web page contents and other information such as frame content from each web site. Next, manipulating, parsing and simplifying the downloaded documents takes place. At this point, preperations for categorization task are completed. Then, by applying Support Vector Machine (SVM) package SVMLlght developed by Thorsten Joachims, web sites are classified under given categories. The classification results obtained in the last section show that there are some over-lapping categories exist and accuracy and precision values are between 60%-80%. In addition to categorization results, we saw that almost 17% of web sites utilize html frames and 9367 web sites include meta- keywords.

Benzer Tezler

  1. İnşaat sözleşmelerinde hak talebi yönetimi: Kamu projeleri için öneri model

    Claim management in construction contracts: Proposed model for public construction projects

    İSMAİL CENGİZ YILMAZ

    Doktora

    Türkçe

    Türkçe

    2013

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HÜSEYİN ATİLLA DİKBAŞ

  2. Otel işletmelerinin potansiyel çalışanlara yönelik izlenim yönetimi taktikleri: Web sitelerinin analizi

    Impression management tactics of hotels towards potential employees: Analysis of web sites

    EMİNE ŞİMŞEK EVREN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    TurizmAnadolu Üniversitesi

    Turizm İşletmeciliği Ana Bilim Dalı

    PROF. DR. MERYEM AKOĞLAN KOZAK

  3. Different representations of a mediating artifact in exhibitions: Woman figurine of Çatalhoyuk

    Sergilerde bir tarihi eserin farklı temsilleri: Çatalhöyük'ün kadın figürini

    HATİCE PELİN ALKAN GÖKMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    MüzecilikKadir Has Üniversitesi

    Tasarım Ana Bilim Dalı

    DOÇ. DR. AYŞE NUR EREK

  4. The impact of learning styles and cultural backgroand on users' experience of websites

    Başlık çevirisi yok

    ÇAĞLA ŞENELER

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolThe University of York

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. HELEN PETRIE

    DR. CHRISTOPHER POWER

  5. Understanding faculty development: A qualitative typology of services and purposes

    Öğretim üyesi gelişimini anlamak: Hizmet ve amaçların nitel bir tipolojisi

    İMREN ACAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Eğitim ve Öğretimİhsan Doğramacı Bilkent Üniversitesi

    Eğitim Programları ve Öğretimi Ana Bilim Dalı

    YRD. DOÇ. DR. NECMİ AKŞİT