Geri Dön

Web sayfalarının otomatik olarak sınıflandırılması üzerine yaklaşımlar ve örnek simülasyon uygulaması

Approachs on web pages automaticly classification and sample simulation application

  1. Tez No: 134346
  2. Yazar: OĞUZ HAYDAR AKBABA
  3. Danışmanlar: YRD. DOÇ. DR. MEHMET GÖKTÜRK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Web Pages Classification, KNN and Centroid Algorithms, Web Mining
  7. Yıl: 2003
  8. Dil: Türkçe
  9. Üniversite: Gebze Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

IV ÖZET İnternet aracılığı ile ulaşılabilen zengin bilgi kaynaklan, günümüz araştırmacılarına cazip bir veri arama ortamı sunmaktadır. Büyük bölümü WWW (World Wide Web), üzerinde olan erişilebilir bilgi kaynakları, sayılarının inanılmaz derecede yüksek olması nedeni ile sınıflandırıldıktan sonra kişilere sunulmaktadır. İlk zamanlarda insan aracılığı ile yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir şekilde artması dolayısıyla otomatik olarak yapılır hale gelmiştir. Bunun için, bazı ön tanımlı kelimeler yardımı ile web sayfalan sınıflandırılmaktadır. Yaygın olarak kullanılan metin sınıflandırma teknikleri, düz metin belgelerinin sınıflandırılmasında kullanılmaktadır. İnternet ortamı tarafından sunulan link, title ve paragraf başlıkları gibi daha zengin yapıların avantajları, bu teknikler aracılığı ile kullanılamamaktadır. Oysa bu kaynaklar web sayfalarının sınıflandırılmasında büyük kolaylıklar sağlamaktadır.. Bu uygulama sonucunda ortaya çıkarılan analizler ile web sayfalarının otomatik olarak sınıflandırılmasında oldukça yaygın olarak kullanılan ve internet ortamının yukarıda bahsedilen avantajlarını kullanabilen algoritmalar ile geliştirilmiş bir simülasyon uygulaması yazılmıştır. Eğitim sayfalarının ve anahtar kelimelerin doğru seçimi ve eşik seviyesinin doğru tespiti ile beraber otomatik sınıflandırmanın başarılı sonuçlar ürettiği sonucuna varılmıştır. Simülasyon uygulaması spidering prosesini gerçekleştiren bir program ile beraber kullanıldığı taktirde tüm bir siteyi dolaşarak daha doğru sonuçlar verecektir. Anahtar Kelimeler : Web Sayfalarının Sınıflandırılması, KNN ve Centroid Algoritmaları, Web Madenciliği

Özet (Çeviri)

SUMMARY Today's rich information resources - reached by the help of internet - present a very good searching environment. Since most of them are on the WWW (World Wide Web), because of the unbelievable huge numbers, they are presented to the people after the classification. In the first days of the classification issue, it is handled by people manually, but since the number of documents have increased very rapidly by the time, it is now handled automatically by the software. The first step of this process, it is to define the web sites by the help of predefined words. Widely used text categorization techniques are used in the classification of flat documents. The advantages of using enhanced structures like links, titles, paragraph headers could not be classified by the techniques. In fact, these resources play very important role in the classification of the web pages. By the workouts and analysis results obtained from this application, a simulation program is written by using the advantages of the above algorithms that are widely used in automatic classification of web sites. It is determined that this simulation application has produced successful results by correct selection of training pages and features, threshold levels. If the simulation program is used together with spidering process, it will yield better correct results by surfing the whole website.

Benzer Tezler

  1. Kendinden düzenlenen haritalar ile doküman sınıflandırma

    Document classification using self-organizing maps

    YILMAZ ALPDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HASAN ŞAKİR BİLGE

  2. Web sayfalarının gizli anlam analizi yaklaşımıyla otomatik olarak sınıflandırılması

    Latent semantic analysis approach for automatic classification of web pages contents

    ELVAN DUMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırıkkale Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN ERBAY

  3. Müşteri yorumları üzerinde metin analitiği çalışmaları ve yorumların makine öğrenmesi algoritmaları ile modellenmesi

    Başlık çevirisi yok

    MUHAMMED IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mühendislik Bilimleriİstanbul Medeniyet Üniversitesi

    Uygulamalı Matematik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ELİF KARAKAYA

  4. Müşteri ilişkileri yönetimi için bloglar üzerinde fikir madenciliği

    Opinion mining on blogs for customer relationship management

    ÇİĞDEM AYTEKİN

    Doktora

    Türkçe

    Türkçe

    2011

    İletişim BilimleriMarmara Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    PROF. DR. ÖZHAN TINGÖY

  5. Derin öğrenme ile web verisi ayıklama altyapısı geliştirilmesi

    Development of a web data extraction infrastructure using deep learning

    GİZEM ABALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgi ve Belge YönetimiEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ