Geri Dön

A new approach to search result clustering and labeling

Arama sonucu kümeleme ve etiketlemeye yeni bir yaklaşım

  1. Tez No: 286323
  2. Yazar: ANIL TÜREL
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Arama motorları sorgu sonuçlarını sayfalara ayrılmış uzun web doküman listesihalinde sunmaktadır. Bilgi erişim sonuçlarının istenen bilgiye daha kolayulaşmayı sağlamak amacıyla tekrar işlenmesi önemli bir araştırma konusudur.Bir tekrar işleme yöntemi de arama sonuçlarını konularına göre gruplamak ve bugrupları konularını yansıtacak şekilde etiketlemektir. Bu tezde, arama motorlarıtarafından oluşturulan uzun doküman listesini anlamlı bir şekilde gruplanmış veetiketlenmiş kümelere ayıran yeni bir arama sonucu kümeleme yaklaşımı sunuyoruz.Metodumuz kapsama katsayısına dayalı kümeleme ve sıralı k-ortalamalaralgoritmalarını kullanarak kümeleme kalitesine önem vermektedir. Diğer bir yandan,kümelerin etiketlemesi, anlamsız ya da kafa karıştıran etiketlerin kullanıcılarıyanlış kümelere yönlendirerek zaman kaybettirmesi nedeniyle önemlidir. Bunlaraek olarak, bir kümenin etiketi, kümede bulunan dokümanların içeriklerini doğrubir biçimde yansıtmalıdır. Kümeleri etiketleme görevini etkin bir şekilde yerinegetirebilmek için, terim ağırlıklandırmaya dayalı yeni bir küme etiketlemeyöntemi sunulmaktadır. Ayrıca küme etiketlemenin başarısını değerlendirmekamacıyla hassasiyet ve kesinlik ölçütlerini kullanan yeni bir etiketleme metriğisunulmaktadır. Metodumuzun Sonek Ağacıyla Kümeleme ve Lingo gibi önde gelenarama sonucu kümeleme algoritmalarına göreceli performansını saptayabilmekamacıyla karşılaştırmalı bir değerlendirme yöntemi uygulanmaktadır. Diğertaraftan, herkesin kullanımına açık olan Ambient ve ODP-239 veri setlerindetestler gerçekleştirilmiştir. Test sonuçları önerilen metodun hem kümeleme hemde etiketleme görevini başarıyla yerine getirdiğini göstermektedir.

Özet (Çeviri)

Search engines present query results as a long ordered list of web snippets dividedinto several pages. Post-processing of information retrieval results for easier accessto the desired information is an important research problem. A post-processingtechnique is clustering search results by topics and labeling these groups to reflectthe topic of each cluster. In this thesis, we present a novel search result clusteringapproach to split the long list of documents returned by search engines intomeaningfully grouped and labeled clusters. Our method emphasizes clusteringquality by using cover coefficient and sequential k-means clustering algorithms.Cluster labeling is crucial because meaningless or confusing labels may misleadusers to check wrong clusters for the query and lose extra time. Additionally,labels should reflect the contents of documents within the cluster accurately. Tobe able to label clusters effectively, a new cluster labeling method based on termweighting is introduced. We also present a new metric that employs precision andrecall to assess the success of cluster labeling. We adopt a comparative evaluationstrategy to derive the relative performance of the proposed method with respectto the two prominent search result clustering methods: Suffix Tree Clusteringand Lingo. Moreover, we perform the experiments using the publicly availableAmbient and ODP-239 datasets. Experimental results show that the proposedmethod can successfully achieve both clustering and labeling tasks.

Benzer Tezler

  1. Gri kurt optimizasyon algoritmasının veri madenciliği problemlerine uygulanması

    Application of gray wolf optimization algorithm to data mining problems

    İHTİSAM AKTO

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ONUR İNAN

  2. Fiyat tahminleme için zaman serilerinde öbekleme analizine dayalı bir yöntem

    A method based on clustering analysis in time series for price forecasting

    SELİN ÖZGE ÖNDİN

    Doktora

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TARIK KÜÇÜKDENİZ

  3. Elektriğin dirençli ortamda hareketini temel alan yeni bir meta sezgisel algoritma tasarımı

    Design of a new metaheuristic algorithm based on the movement of electricity in highly resistant environment

    HÜSEYİN DEMİRCİ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NİLÜFER YURTAY

  4. Donanım hızlandırmalı veri demetleme

    Hardware accelerated data clustering

    NAZİRE MERVE ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    ÖĞR. GÖR. MURAT HACIÖMEROĞLU

  5. Elektrokardiyogram verilerinin iyileştirilmiş yapay arı kolonisi (MABC) algoritması ile analizi

    Analysis of electrocardiogram data by using modified artificial bee colony (MABC) algorithm

    SELİM DİLMAÇ

    Doktora

    Türkçe

    Türkçe

    2017

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. TAMER ÖLMEZ