Lingo algoritmasının kümelerle ilişkili dokümanların belirlenmesi ve küme etiketlerinin çıkarılması aşamalarının iyileştirilmesi
Enhancing the cluster content discovery and the cluster label induction phases of the Lingo algorithm
- Tez No: 346065
- Danışmanlar: PROF. DR. HAYRİ SEVER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: bilgi erişim dizgeleri, arama sonucu kümeleme, küme elemanlarını belirleme, küme etiketleme, information retrieval, search results clustering, cluster content discovery, cluster labeling
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Arama Sonucu Kümeleme (ASK) algoritmaları, kullanıcıların arama motorları üzerinde aradıkları sonuçlara daha kolay erişebilmeleri için geliştirilen algoritmalardır. İyi bir ASK algoritmasının hem arama sonuçlarını doğru kümelemesi, hem de oluşturduğu kümelere; kümeleri temsil edebilen, anlaşılır ve anlamlı etiketler üretmesi beklenir. Lingo algoritması her iki kritere de önem veren popüler bir ASK algoritmasıdır. Lingo algoritması, oluşturduğu kümeler için bahsedildiği şekilde başarılı etiketler üretebilmektedir; ancak kümelerin elemanlarını belirleme konusunda bazı eksiklikleri bulunmaktadır. Algoritmada uygulanan kümelere doküman atama stratejisinin sonucu olarak, küme etiketlerindeki terimleri içermeyen; ancak, aslında etiketlerle anlamsal olarak ilişkili olan dokümanlar ilgili kümelere atanamamaktadır. Ayrıca, sonuç küme etiketlerinin belirlenmesi için kullanılan yöntem, az sayıda ilgili sonuç içeren kümelerin ortaya çıkmasına neden olmaktadır. Bu eksiklikler düşük anma (recall) değerine sebep olmaktadır. Bu tezde, Lingo algoritmasındaki sözkonusu eksiklikleri gidererek iyileştirme sağlamayı amaçlayan; ilki kümelere ilişkili dokümanların atanması aşamasında, diğeri kümelerin etiketlerinin çıkarılması aşamasında olmak üzere iki değişiklik önerisi sunulmaktadır. Deney sonuçları, önerilen değişikliklerin anma değerini büyük oranda iyileştirdiğini göstermektedir.
Özet (Çeviri)
Search Results Clustering (SRC) algorithms are developed so that users can reach to the results that they search for easier. A good SRC algorithm is expected to correclty cluster the search results, and also to be able to generate representative, understandable and meaningful cluster labels for the produced clusters. The Lingo algorithm is a popular SRC algorithm that notice both two criterions. It is able to generate successful cluster labels as expected; however, it has some shortcomings about determining the cluster contents. As a consequence of its cluster content assignment strategy, semantically relevant documents that do not contain the terms of the cluster labels could not be assigned to the related clusters. Moreover, the method that is used to select final cluster labels results in clusters containing small number of relevant results. These shortcomings cause low recall values. In this thesis, two modification proposals that aim to overcome the shortcomings of the Lingo algorithm are presented. The first modification proposal is for the cluster content discovery phase, and the other is for the cluster label induction phase. The experiment results show that the proposed modifications improve the low recall values to quite higher values.
Benzer Tezler
- Assignment of aspects in heterogeneous distributed systems
Heterojen dağıtılmış sistemlerde cephe atama
SAMET BULU
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. FEZA BUZLUCA
- Paralel tezgahlarda yükleme ve çizelgeleme problemi için karma tamsayılı modelleme ve genetik algoritma temelli yeni bir çözüm yaklaşımı
Mixed integer modeling for parallel machine loading and scheduling problem and a new genetic algorithm based solution approach
ESRA ERBAŞTA
Yüksek Lisans
Türkçe
2010
Endüstri ve Endüstri MühendisliğiEskişehir Osmangazi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUZAFFER KAPANOĞLU
- İşlerin bölünebilir olduğu paralel makine çizelgeleme problemi için tabu arama yöntemi
Tabu search method for a parallel machine scheduling problem with a job splitting property
CENK ÇELİK
Yüksek Lisans
Türkçe
2008
Endüstri ve Endüstri MühendisliğiEskişehir Osmangazi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İNCİ SARIÇİÇEK
- Geçmiş sıra bağımlı zaman tabanlı öğrenme etkisi altında çizelgeleme problemleri
Scheduling problems under the past sequence dependent time based learning effect
MİNE TEMEL
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri MühendisliğiErciyes ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET DURAN TOKSARI
- Çok depolu araç rotalama probleminde genetik algoritma ve parçacık sürü optimizasyonu algoritmalarının kıyaslaması
Comparison of genetic algorithm and particle swarm optimization algorithms in multi-depot vehicle routing problem
MERVE AYDIN
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiKocaeli ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIZ ŞAHİN