A new approach to search result clustering and labeling

Arama sonucu kümeleme ve etiketlemeye yeni bir yaklaşım

PDF İndir

Tez No: 286323
Yazar: ANIL TÜREL
Danışmanlar: PROF. DR. FAZLI CAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

Arama motorları sorgu sonuçlarını sayfalara ayrılmış uzun web doküman listesihalinde sunmaktadır. Bilgi erişim sonuçlarının istenen bilgiye daha kolayulaşmayı sağlamak amacıyla tekrar işlenmesi önemli bir araştırma konusudur.Bir tekrar işleme yöntemi de arama sonuçlarını konularına göre gruplamak ve bugrupları konularını yansıtacak şekilde etiketlemektir. Bu tezde, arama motorlarıtarafından oluşturulan uzun doküman listesini anlamlı bir şekilde gruplanmış veetiketlenmiş kümelere ayıran yeni bir arama sonucu kümeleme yaklaşımı sunuyoruz.Metodumuz kapsama katsayısına dayalı kümeleme ve sıralı k-ortalamalaralgoritmalarını kullanarak kümeleme kalitesine önem vermektedir. Diğer bir yandan,kümelerin etiketlemesi, anlamsız ya da kafa karıştıran etiketlerin kullanıcılarıyanlış kümelere yönlendirerek zaman kaybettirmesi nedeniyle önemlidir. Bunlaraek olarak, bir kümenin etiketi, kümede bulunan dokümanların içeriklerini doğrubir biçimde yansıtmalıdır. Kümeleri etiketleme görevini etkin bir şekilde yerinegetirebilmek için, terim ağırlıklandırmaya dayalı yeni bir küme etiketlemeyöntemi sunulmaktadır. Ayrıca küme etiketlemenin başarısını değerlendirmekamacıyla hassasiyet ve kesinlik ölçütlerini kullanan yeni bir etiketleme metriğisunulmaktadır. Metodumuzun Sonek Ağacıyla Kümeleme ve Lingo gibi önde gelenarama sonucu kümeleme algoritmalarına göreceli performansını saptayabilmekamacıyla karşılaştırmalı bir değerlendirme yöntemi uygulanmaktadır. Diğertaraftan, herkesin kullanımına açık olan Ambient ve ODP-239 veri setlerindetestler gerçekleştirilmiştir. Test sonuçları önerilen metodun hem kümeleme hemde etiketleme görevini başarıyla yerine getirdiğini göstermektedir.

Özet (Çeviri)

Search engines present query results as a long ordered list of web snippets dividedinto several pages. Post-processing of information retrieval results for easier accessto the desired information is an important research problem. A post-processingtechnique is clustering search results by topics and labeling these groups to reflectthe topic of each cluster. In this thesis, we present a novel search result clusteringapproach to split the long list of documents returned by search engines intomeaningfully grouped and labeled clusters. Our method emphasizes clusteringquality by using cover coefficient and sequential k-means clustering algorithms.Cluster labeling is crucial because meaningless or confusing labels may misleadusers to check wrong clusters for the query and lose extra time. Additionally,labels should reflect the contents of documents within the cluster accurately. Tobe able to label clusters effectively, a new cluster labeling method based on termweighting is introduced. We also present a new metric that employs precision andrecall to assess the success of cluster labeling. We adopt a comparative evaluationstrategy to derive the relative performance of the proposed method with respectto the two prominent search result clustering methods: Suffix Tree Clusteringand Lingo. Moreover, we perform the experiments using the publicly availableAmbient and ODP-239 datasets. Experimental results show that the proposedmethod can successfully achieve both clustering and labeling tasks.

Benzer Tezler

Tez No
683909
Gri kurt optimizasyon algoritmasının veri madenciliği problemlerine uygulanması
Application of gray wolf optimization algorithm to data mining problems
İHTİSAM AKTO
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Necmettin Erbakan Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR İNAN
Tez No
815113
Fiyat tahminleme için zaman serilerinde öbekleme analizine dayalı bir yöntem
A method based on clustering analysis in time series for price forecasting
SELİN ÖZGE ÖNDİN
Doktora
Türkçe
2023
Endüstri ve Endüstri Mühendisliği İstanbul Üniversitesi-Cerrahpaşa
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. TARIK KÜÇÜKDENİZ
Tez No
810500
Elektriğin dirençli ortamda hareketini temel alan yeni bir meta sezgisel algoritma tasarımı
Design of a new metaheuristic algorithm based on the movement of electricity in highly resistant environment
HÜSEYİN DEMİRCİ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
Tez No
374568
Donanım hızlandırmalı veri demetleme
Hardware accelerated data clustering
NAZİRE MERVE ÇETİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. MURAT HACIÖMEROĞLU
Tez No
496430
Elektrokardiyogram verilerinin iyileştirilmiş yapay arı kolonisi (MABC) algoritması ile analizi
Analysis of electrocardiogram data by using modified artificial bee colony (MABC) algorithm
SELİM DİLMAÇ
Doktora
Türkçe
2017
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ

Geri Dön