An investigation on term weighting methods for distributed information retrieval
Dağıtık bilgi erişim sistemleri için terim ağırlıklandırma yöntemleri üzerine bir inceleme
- Tez No: 692629
- Danışmanlar: DR. ÖĞR. ÜYESİ İLKER KOCABAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
- Sayfa Sayısı: 62
Özet
Son zamanlarda bilgiler ve deneysel gerçekler geçmişe göre daha fazla öneme sahiptir. Bununla beraber, teknolojinin gelişmesiyle kullanıcıların ihtiyaç duyduğu bilgiler günden güne ciddi bir şekilde artmaktadır. Bilgi erişim sisteminde, kullanıcılar tarafından erişilen bilgiler, aslında ağda başka bir kaynaktan erişilmektedir. Genellikle bir arama motoru olarak bilinen bilgi erişim sistemi bazı temel işlemlere sahiptir. Örnek olarak bilgi erişiminden önce web sitelerinde bilgi tarama ve indekslemeyi yapmak zorundadır. Bu günlerde, herhangi bir kullanıcı arama motorunu kullanarak herhangi bir web servisinde istediği bir bilgiye ulaşabilir. Bu araştırmanın amacı, bilgi geri getirim süresince, yazılmış metin kaynaklarının üzerinde, terim ağırlıklandırma , birleştirme ve skor normalizasyonu tekniklerinin performansını incelemektedir. Dağıtık bir ortamdaki bilgi erişim sistemi, her bir bilgi kaynağının sonuç kümesinde skorlama , sıralama ve bunun yanı sıra aynı kaynakların sonuçlarının birleştirilmesinden oluşur. Bu çalışmada, TERRIER'in kütüphanesini kullanarak bir uygulama geliştirildi ve bunun sonucunda deneylerin ve testlerin otomatik bir şekilde yapılmasını sağladı. Glasgow üniversitesi bilgi erişim üyeleri tarafından geliştirilmiş olan TERRIER, açık kaynak modüler yazılım platformu olduğundan, büyük çapta bilgi erişim sistemlerinin gelişimi için kullanılmıştır. Bu programın işlevleri test, indeksleme, bilgi erişimi ve performans değerlendirmesi için veri kümesi hazırlama aşamalarından oluşur. İlk olarak, Bilgi erişim konferansı tarafından hazırlanmış TREC-6, TREC-7 ve TREC-8 ad-hoc parçalarını kullanarak bir veri kümesi hazırlanmıştır. Her bir veri koleksiyonu rastgele bir şekilde daha küçük veri kümelerine bölünüp, her biri ayrı bir veri kaynağı olarak düzenlendi. İndeksleme aşamasından sonra veriler bilgi erişim aşaması için hazırlanmıştır. Test senaryoları, bilgi erişim aşamasında, her bir test veri kümesi üzerinde, ağırlıklandırma ve normalizasyon birleştirme yöntemlerini kullanarak olşturuldu. Ağılıklandırma teknikleri olarak BM25, TF-IDF, IFB2 ve DFIZ kullanıldı. Normalleştirme yöntemleri olarak da Min-Max ve Sum kullanıldı. En sonunda oluşmuş test kümelerinin performansı R-Prec ve MAP metriklerini inceleyerek tespit edildi.
Özet (Çeviri)
In recent years information and facts has become more of a priority than long ago. In addition to technical developments in computer science, the amount of information needed by users has been increasing day by day. In the context of information retrieval (IR), the information that has been accessed is actually retrieved from a source located somewhere else in the network. An IR system, often referred to as a search engine, has to do some basic operations such as crawling the information sources and indexing before retrieving requested information. Nowadays any client can access any related information in any web service using search engines. The objective of this research is to examine the performance of retrieval on written document collections in terms of term weighting algorithms and score normalization merging techniques in a distributed environment called distributed information retrieval. In such a distributed environment, information retrieval consists of document scoring and ranking each information source participated in a result-set as well as the final merging of these results that have been returned from different sources. During this study, an application was developed by using the library provided by Terrier IR platform, so that experiments can be carried out automatically. Terrier IR Platform is a modular open source software for the rapid development of large scale IR applications which was developed by members of the Information Retrieval Research Group, Department of Computing Science, at the University of Glasgow. The functions performed by this program are data-sets preparation for tests, indexing, retrieving and performance evaluation. Firstly, an experimental test data has been prepared using text collections in TREC-6, TREC-7 and TREC-8 ad-hoc tracks provided by the Text Retrieval Conference. Each test collection is divided randomly and discretely into smaller-sized collections that are each taken as documents owned by a source in distributed environment. After the indexing process, the necessary data has become ready for the use of test cases in the retrieval stage. The test cases have been created by applying several term weighting methods and normalized merging methods at retrieval stage on each dataset. TF-IDF, BM25 are examples of term weighting methods, where Min-Max and Sum are of result merging methods. At last, the performances of tests have been evaluated by the MAP and R-Prec metrics.
Benzer Tezler
- Alümina fiber takviyeli Al-si metal matriksli kompozitlerin üretimi ve mikroyapı-özellik ilişkilerinin incelenmesi
production of alumina fiber reinforced Al-si metal matrix composites and the investigation of their microstructure-propetry relation ships
HATEM AKBULUT
- Nötron aktivasyon analizi ve tayin edilen eser elementleri kullanarak kömürlerin hava kalitesine etkisinin değerlendirilmesi
Evaluation of coal related emissions on air quality by means of trace elements determined by neutron activation analysis
EMİNE İLKİZ EĞİLLİ
Doktora
Türkçe
1999
Nükleer Mühendislikİstanbul Teknik ÜniversitesiNükleer Mühendislik Ana Bilim Dalı
PROF. DR. A. NEZİHİ BİLGE
- Investigation of imbalance problem effects on text categorization
Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması
BEHZAD NADERALVOJOUD
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBRU AKÇAPINAR SEZER
- Gemi kazası kompleks probleminin incelenmesi için kök sebep analizi yaklaşımı önerisi
A root cause analysis approach for maritime accident problem investigation
TUBA KEÇECİ
Doktora
Türkçe
2015
Denizcilikİstanbul Teknik ÜniversitesiDeniz Ulaştırma Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZCAN ARSLAN
- Decision-making mechanism in appropriate roof selection for rainwater harvesting based on combining field data and laboratory experiments
Yağmur suyu hasadi için uygun çati seçiminde saha verileri ve laboratuvar deneylerine dayali karar verme mekanizmasinin kullanilmasi
SHAYAN SHITREH
Yüksek Lisans
İngilizce
2024
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. HALE ÖZGÜN ERŞAHİN