A new approach to search result clustering and labeling
Arama sonucu kümeleme ve etiketlemeye yeni bir yaklaşım
- Tez No: 286323
- Danışmanlar: PROF. DR. FAZLI CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Arama motorları sorgu sonuçlarını sayfalara ayrılmış uzun web doküman listesihalinde sunmaktadır. Bilgi erişim sonuçlarının istenen bilgiye daha kolayulaşmayı sağlamak amacıyla tekrar işlenmesi önemli bir araştırma konusudur.Bir tekrar işleme yöntemi de arama sonuçlarını konularına göre gruplamak ve bugrupları konularını yansıtacak şekilde etiketlemektir. Bu tezde, arama motorlarıtarafından oluşturulan uzun doküman listesini anlamlı bir şekilde gruplanmış veetiketlenmiş kümelere ayıran yeni bir arama sonucu kümeleme yaklaşımı sunuyoruz.Metodumuz kapsama katsayısına dayalı kümeleme ve sıralı k-ortalamalaralgoritmalarını kullanarak kümeleme kalitesine önem vermektedir. Diğer bir yandan,kümelerin etiketlemesi, anlamsız ya da kafa karıştıran etiketlerin kullanıcılarıyanlış kümelere yönlendirerek zaman kaybettirmesi nedeniyle önemlidir. Bunlaraek olarak, bir kümenin etiketi, kümede bulunan dokümanların içeriklerini doğrubir biçimde yansıtmalıdır. Kümeleri etiketleme görevini etkin bir şekilde yerinegetirebilmek için, terim ağırlıklandırmaya dayalı yeni bir küme etiketlemeyöntemi sunulmaktadır. Ayrıca küme etiketlemenin başarısını değerlendirmekamacıyla hassasiyet ve kesinlik ölçütlerini kullanan yeni bir etiketleme metriğisunulmaktadır. Metodumuzun Sonek Ağacıyla Kümeleme ve Lingo gibi önde gelenarama sonucu kümeleme algoritmalarına göreceli performansını saptayabilmekamacıyla karşılaştırmalı bir değerlendirme yöntemi uygulanmaktadır. Diğertaraftan, herkesin kullanımına açık olan Ambient ve ODP-239 veri setlerindetestler gerçekleştirilmiştir. Test sonuçları önerilen metodun hem kümeleme hemde etiketleme görevini başarıyla yerine getirdiğini göstermektedir.
Özet (Çeviri)
Search engines present query results as a long ordered list of web snippets dividedinto several pages. Post-processing of information retrieval results for easier accessto the desired information is an important research problem. A post-processingtechnique is clustering search results by topics and labeling these groups to reflectthe topic of each cluster. In this thesis, we present a novel search result clusteringapproach to split the long list of documents returned by search engines intomeaningfully grouped and labeled clusters. Our method emphasizes clusteringquality by using cover coefficient and sequential k-means clustering algorithms.Cluster labeling is crucial because meaningless or confusing labels may misleadusers to check wrong clusters for the query and lose extra time. Additionally,labels should reflect the contents of documents within the cluster accurately. Tobe able to label clusters effectively, a new cluster labeling method based on termweighting is introduced. We also present a new metric that employs precision andrecall to assess the success of cluster labeling. We adopt a comparative evaluationstrategy to derive the relative performance of the proposed method with respectto the two prominent search result clustering methods: Suffix Tree Clusteringand Lingo. Moreover, we perform the experiments using the publicly availableAmbient and ODP-239 datasets. Experimental results show that the proposedmethod can successfully achieve both clustering and labeling tasks.
Benzer Tezler
- Gri kurt optimizasyon algoritmasının veri madenciliği problemlerine uygulanması
Application of gray wolf optimization algorithm to data mining problems
İHTİSAM AKTO
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ONUR İNAN
- Fiyat tahminleme için zaman serilerinde öbekleme analizine dayalı bir yöntem
A method based on clustering analysis in time series for price forecasting
SELİN ÖZGE ÖNDİN
Doktora
Türkçe
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-CerrahpaşaEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. TARIK KÜÇÜKDENİZ
- Elektriğin dirençli ortamda hareketini temel alan yeni bir meta sezgisel algoritma tasarımı
Design of a new metaheuristic algorithm based on the movement of electricity in highly resistant environment
HÜSEYİN DEMİRCİ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. NİLÜFER YURTAY
- Donanım hızlandırmalı veri demetleme
Hardware accelerated data clustering
NAZİRE MERVE ÇETİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. MURAT HACIÖMEROĞLU
- Elektrokardiyogram verilerinin iyileştirilmiş yapay arı kolonisi (MABC) algoritması ile analizi
Analysis of electrocardiogram data by using modified artificial bee colony (MABC) algorithm
SELİM DİLMAÇ
Doktora
Türkçe
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ