Geri Dön

Investigation of using the LSA model with similarity metrics for semantic-based web document clustering

Semantik bazlı web dokümanı kümelenmesi için benzeri metrikli LSA modelinin kullanımının incelenmesi

  1. Tez No: 492756
  2. Yazar: MASHHOOD ALI ALI
  3. Danışmanlar: YRD. DOÇ. DR. AYTUĞ BOYACI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 65

Özet

Web belge kümelemesi, benzer web belgelerini, aynı kümedeki belgelerin diğer kümelerdeki belgelere göre semantik olarak daha yakın kategorize edildiği gruplar halinde bir araya getirmek için veri kümeleme tekniklerini kullanmaktadır. Belgeleri kümeleme yöntemlerinden biri, bu belgelerin içerdikleri konulara göre gruplandırılmasına dayanmaktadır. Konu tabanlı web belge kümeleme yönteminde kullanılan temel teknik, veri setinde bulunan terimler ve belgeler gibi her öğe için veri seti düzeyinde bir semantik (ör. konular) türeten ve LSA (Latent Semantic Analysis) olarak bilinen semantik analiz modelidir. LSA modeli literatürde, farklı şekillerde, varyasyonlarda ve farklı amaçlarda kullanılmıştır. Mevcut durumda LSA modelinin birçok kullanımı bulunduğundan, bu çalışmada, metin dokümanlarını semantik olarak kümelemede LSA modelinin en iyi şekilde kullanımı incelenmiştir. Bu sebeple, web belgelerinin kümelenmesinde en iyi performansı gösteren varyasyonu bulmak amacıyla LSA modelinin altı farklı semantik-benzerlik ölçümü ile kombinasyonları incelenmiştir. Metin kümelemesinde LSA modelini kullanımının en iyi varyasyonu, yine bu varyasyonun en çok kullanılan iki web dokümanı veri setine uygulanmasından sonra bulunmuştur. Sonuçlar aynı zamanda, web belge kümelemesi için LSA modelinin kullanımındaki her varyasyonun performansını göstermektedir.

Özet (Çeviri)

Web document clustering uses data clustering techniques to group similar web documents into groups, where the documents from the same cluster are more semantically similar than the documents in the other clusters. One of the methods of clustering the documents is based on the topics they contain. The main technique used for topic-based web document clustering is the using of a semantic-analysis model called Latent Semantic Analysis (LSA), which derives a corpus-level semantics (i.e. topics) for every element in the corpus such as, terms and documents. The LSA model has been used in the literature in different ways, variations and for different applications. In this study, we experimentally investigate the best use of the LSA model in semantically clustering the text documents, as there is more than one possible variation when one uses and implements the LSA model. To do so, we examined the LSA model in different combinations with six different semantic-similarity measures to find the best possible variation, which performs best in clustering web documents. The best variation of using the LSA model in text clustering was found after applying it to two commonly used web document datasets. The results also demonstrate the performance of each variation of using LSA model for the task of web document clustering.

Benzer Tezler

  1. Rhodotorula cinsine ait bazı maya türlerinin beta-karoten üretimlerinin incelenmesi

    Investigation of beta-carotene productions of some yeast species that belong to rhodotorula genus

    FAZİLET MIDIK

    Doktora

    Türkçe

    Türkçe

    2021

    Gıda MühendisliğiHacettepe Üniversitesi

    Gıda Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEKİYE YEŞİM ÖZBAŞ

  2. Investigation of capacitive behaviour of emulsion polymerized pedot and its nanocomposites

    Emülsiyon polimerizasyonu ile sentezlenen pedot ve nanokompozitlerinin kapasitif özelliklerinin incelenmesi

    DENİZ GÜLERCAN

    Doktora

    İngilizce

    İngilizce

    2019

    Polimer Bilim ve Teknolojisiİstanbul Teknik Üniversitesi

    Polimer Bilim ve Teknolojisi Ana Bilim Dalı

    PROF. DR. ABDÜLKADİR SEZAİ SARAÇ

  3. Amiloglikosidaz enziminin sıcaklığa duyarlı NIPAAm/AAm kopolimer matriste tutuklanması ve maltodeksrinden glikoz şurubu üretimi

    Entrapment of amyloglucosidase enzyme in a thermo-responsive copolymer matrix and production of glucose syrup from maltodextrin

    ŞULE ŞEKER

    Doktora

    Türkçe

    Türkçe

    2000

    Kimya MühendisliğiHacettepe Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDURRAHMAN TANYOLAÇ

  4. Forbol miristat asetat ve selektif v1a reseptör antagonisti SR49059'un aquaporin-4 ve beyin ödemi rezolüsyonu üzerine etkilerinin incelenmesi

    The effect of aquaporin supression on resolution of brain edema in intracerebral infusion model in rats.

    PINAR AKDEMİR ÖZIŞIK

    Doktora

    Türkçe

    Türkçe

    2007

    BiyokimyaHacettepe Üniversitesi

    Nöroloji Ana Bilim Dalı

    PROF. DR. NEJAT AKALAN

  5. Baş-boyun yassı epitel hücreli karsinomlarında karsinoembriyojenik antijen, lipid bağlı sialik asit ve TNF-ALFA'nın tümör belirteci olarak değerinin araştırılması

    The investigation of carcinoembrıogenic carcinom antigen, lipid-associated sialic acid, TNF-ALPHA as tumor markers in head and neck carcinoma

    LEVENT GÜRBÜZLER

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2007

    Kulak Burun ve BoğazGazi Üniversitesi

    Kulak Burun Boğaz Ana Bilim Dalı

    PROF.DR. ERDOĞAN İNAL