Geri Dön

An investigation on term weighting methods for distributed information retrieval

Dağıtık bilgi erişim sistemleri için terim ağırlıklandırma yöntemleri üzerine bir inceleme

  1. Tez No: 692629
  2. Yazar: SHANAY ZARGARI AFSHAR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ İLKER KOCABAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 62

Özet

Son zamanlarda bilgiler ve deneysel gerçekler geçmişe göre daha fazla öneme sahiptir. Bununla beraber, teknolojinin gelişmesiyle kullanıcıların ihtiyaç duyduğu bilgiler günden güne ciddi bir şekilde artmaktadır. Bilgi erişim sisteminde, kullanıcılar tarafından erişilen bilgiler, aslında ağda başka bir kaynaktan erişilmektedir. Genellikle bir arama motoru olarak bilinen bilgi erişim sistemi bazı temel işlemlere sahiptir. Örnek olarak bilgi erişiminden önce web sitelerinde bilgi tarama ve indekslemeyi yapmak zorundadır. Bu günlerde, herhangi bir kullanıcı arama motorunu kullanarak herhangi bir web servisinde istediği bir bilgiye ulaşabilir. Bu araştırmanın amacı, bilgi geri getirim süresince, yazılmış metin kaynaklarının üzerinde, terim ağırlıklandırma , birleştirme ve skor normalizasyonu tekniklerinin performansını incelemektedir. Dağıtık bir ortamdaki bilgi erişim sistemi, her bir bilgi kaynağının sonuç kümesinde skorlama , sıralama ve bunun yanı sıra aynı kaynakların sonuçlarının birleştirilmesinden oluşur. Bu çalışmada, TERRIER'in kütüphanesini kullanarak bir uygulama geliştirildi ve bunun sonucunda deneylerin ve testlerin otomatik bir şekilde yapılmasını sağladı. Glasgow üniversitesi bilgi erişim üyeleri tarafından geliştirilmiş olan TERRIER, açık kaynak modüler yazılım platformu olduğundan, büyük çapta bilgi erişim sistemlerinin gelişimi için kullanılmıştır. Bu programın işlevleri test, indeksleme, bilgi erişimi ve performans değerlendirmesi için veri kümesi hazırlama aşamalarından oluşur. İlk olarak, Bilgi erişim konferansı tarafından hazırlanmış TREC-6, TREC-7 ve TREC-8 ad-hoc parçalarını kullanarak bir veri kümesi hazırlanmıştır. Her bir veri koleksiyonu rastgele bir şekilde daha küçük veri kümelerine bölünüp, her biri ayrı bir veri kaynağı olarak düzenlendi. İndeksleme aşamasından sonra veriler bilgi erişim aşaması için hazırlanmıştır. Test senaryoları, bilgi erişim aşamasında, her bir test veri kümesi üzerinde, ağırlıklandırma ve normalizasyon birleştirme yöntemlerini kullanarak olşturuldu. Ağılıklandırma teknikleri olarak BM25, TF-IDF, IFB2 ve DFIZ kullanıldı. Normalleştirme yöntemleri olarak da Min-Max ve Sum kullanıldı. En sonunda oluşmuş test kümelerinin performansı R-Prec ve MAP metriklerini inceleyerek tespit edildi.

Özet (Çeviri)

In recent years information and facts has become more of a priority than long ago. In addition to technical developments in computer science, the amount of information needed by users has been increasing day by day. In the context of information retrieval (IR), the information that has been accessed is actually retrieved from a source located somewhere else in the network. An IR system, often referred to as a search engine, has to do some basic operations such as crawling the information sources and indexing before retrieving requested information. Nowadays any client can access any related information in any web service using search engines. The objective of this research is to examine the performance of retrieval on written document collections in terms of term weighting algorithms and score normalization merging techniques in a distributed environment called distributed information retrieval. In such a distributed environment, information retrieval consists of document scoring and ranking each information source participated in a result-set as well as the final merging of these results that have been returned from different sources. During this study, an application was developed by using the library provided by Terrier IR platform, so that experiments can be carried out automatically. Terrier IR Platform is a modular open source software for the rapid development of large scale IR applications which was developed by members of the Information Retrieval Research Group, Department of Computing Science, at the University of Glasgow. The functions performed by this program are data-sets preparation for tests, indexing, retrieving and performance evaluation. Firstly, an experimental test data has been prepared using text collections in TREC-6, TREC-7 and TREC-8 ad-hoc tracks provided by the Text Retrieval Conference. Each test collection is divided randomly and discretely into smaller-sized collections that are each taken as documents owned by a source in distributed environment. After the indexing process, the necessary data has become ready for the use of test cases in the retrieval stage. The test cases have been created by applying several term weighting methods and normalized merging methods at retrieval stage on each dataset. TF-IDF, BM25 are examples of term weighting methods, where Min-Max and Sum are of result merging methods. At last, the performances of tests have been evaluated by the MAP and R-Prec metrics.

Benzer Tezler

  1. Alümina fiber takviyeli Al-si metal matriksli kompozitlerin üretimi ve mikroyapı-özellik ilişkilerinin incelenmesi

    production of alumina fiber reinforced Al-si metal matrix composites and the investigation of their microstructure-propetry relation ships

    HATEM AKBULUT

    Doktora

    Türkçe

    Türkçe

    1994

    Metalurji Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. FEVZİ YILMAZ

  2. Nötron aktivasyon analizi ve tayin edilen eser elementleri kullanarak kömürlerin hava kalitesine etkisinin değerlendirilmesi

    Evaluation of coal related emissions on air quality by means of trace elements determined by neutron activation analysis

    EMİNE İLKİZ EĞİLLİ

    Doktora

    Türkçe

    Türkçe

    1999

    Nükleer Mühendislikİstanbul Teknik Üniversitesi

    Nükleer Mühendislik Ana Bilim Dalı

    PROF. DR. A. NEZİHİ BİLGE

  3. Investigation of imbalance problem effects on text categorization

    Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması

    BEHZAD NADERALVOJOUD

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU AKÇAPINAR SEZER

  4. Gemi kazası kompleks probleminin incelenmesi için kök sebep analizi yaklaşımı önerisi

    A root cause analysis approach for maritime accident problem investigation

    TUBA KEÇECİ

    Doktora

    Türkçe

    Türkçe

    2015

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖZCAN ARSLAN

  5. Decision-making mechanism in appropriate roof selection for rainwater harvesting based on combining field data and laboratory experiments

    Yağmur suyu hasadi için uygun çati seçiminde saha verileri ve laboratuvar deneylerine dayali karar verme mekanizmasinin kullanilmasi

    SHAYAN SHITREH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HALE ÖZGÜN ERŞAHİN