Belge derlemlerinde sorgu terimlerinin frekans dağılımlarının analizi ve sorguya göre en uygun terim ağırlıklandırma modelinin seçimi
Analysis of the frequency distributions of query terms on document collections & per-query selection of best term weighting model
- Tez No: 446758
- Danışmanlar: DOÇ. DR. BEKİR TANER DİNÇER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Anadolu Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 137
Özet
Bilgi erişimi için bir çok terim ağırlıklandırma modeli geliştirilmiştir. Fakat her terim ağırlıklandırma modelinin başarımı bazı sorgularda yüksek bazı sorgularda da düşüktür --- başarımın gürbüzlüğü problemi. Diğer taraftan bir terim ağırlıklandırma modelinin başarımının düşük olduğu bir sorgu için diğer terim ağırlıklandırma modellerinin başarımı da düşük olmak zorunda değildir: herhangi bir sorgu için tatminkar düzeyde başarım sağlayacak bir terim ağırlıklandırma modelini mevcut teknolojiler içinde bulmak mümkün olabilir. Yani sisteme gelen her sorguyu tek bir terim ağırlıklandırma modeli ile cevaplamak, kullanıcıların bilgi ihtiyaçlarını en tatminkar şekilde karşılamak için uygun olmayabilir. Tüm sorgular için tekil bir terim ağırlıklandırma modeli kullanmak yerine, her bir ayrı sorgu için uygun bir terim ağırlıklandırma modeli kullanıldığında bilgi erişim başarımının mertebe kertesinde artış olduğu deneysel bir gerçektir. Ancak, verilen herhangi bir sorgu için en iyi başarımı sağlayacak olan modelin, bugünkü bilinen en gelişkin modeller arasından otomatik olarak seçiminin yapılması işi halen çözülememiş zor bir araştırma konusudur. Bu uğraş, seçkili bilgi erişimi çalışma alanında, genel olarak, seçkili terim ağırlıklandırma ya da seçkili ağırlıklandırma fonksiyonu olarak adlandırılır. Bu doktora tezinde, seçkili terim ağırlıklandırma uğraşı için sorgu terimlerinin derlemler üzerindeki frekans dağılımlarına dayanan özgün bir istatiksel/olasılıksal yaklaşım incelenmiştir. Bir sorguda iyi çalışan terim ağırlıklandırma modeli başka bir sorguda iyi çalışmayabilmektedir. Verilen herhangi bir sorgunun en iyi çalışacağı terim ağırlıklandırma modelini önceden belirleyemiyoruz. Terim ağırlıklandırma modellerinin başarımı üzerine etki eden sorgu ve derlem karakteristikleri hakkında çok az bilgiye sahibiz. Bu doktora tezinde, söz konusu gizeme bir nebze olsun ışık tutmak amaçlanmaktadır. Bu tezde sunulan bütün deney sonuçlarını tekrarlamak ve yeniden üretmek için gerekli olan veri ve kod çevrimiçi olarak mevcuttur.
Özet (Çeviri)
Many term-weighting models have been proposed for information retrieval but the effectiveness of each term-weighting model varies across queries (i.e., information needs of users). Thus, using a single term-weighting model to process all kinds of queries may not be appropriate for fulfilling every information need of users. Instead of using a single term weighting model, it is an empirical fact that using different term weighting models for different queries could provide an increase in information retrieval effectiveness by an order of magnitude. However, for any given query, automatically selecting the term-weighting model that could provide the highest achievable retrieval effectiveness in the current state-of-the-art of information retrieval technology is still an open and challenging research problem. This issue is, in general, referred to as selective term weighting or selective weighting function or selective retrieval model in the field of selective information retrieval. In this PhD dissertation, we will investigate a novel statistical/probabilistic approach to the selective term weighting problem, based on the frequency distributions of query terms on document collections. A term-weighting model that works well for one query, may not work well for another. We are not capable of determining or justifying in advance the best term-weighting model to use with a given query. We know little of the characteristics of queries and document collections that affect the effectiveness of term-weighting models. This PhD dissertation aims to shed some light on this mystery by analyzing the frequency distributions of query terms on document collections. All the results presented in this dissertation are fully repeatable and reproducible with data and code available online.
Benzer Tezler
- Efficiency and effectiveness of xml keyword search using full element index
Tam eleman indeksi kullanarak xml anahtar sözcük aramanın verimlilik ve etkililiği
DUYGU ATILGAN
Yüksek Lisans
İngilizce
2010
Bilgi ve Belge Yönetimiİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- Contribution a la recherche d'un cadre juridique pour un droit international de laconcurrence plus efficace
Daha etkin bir uluslararası rekabet için hukuki çerçeve arayışı
ALİ CENK KESKİN
Doktora
Fransızca
2009
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. JEAN MARC SOREL
PROF. DR. HALİL ERCÜMENT ERDEM
- Halk kütüphanelerinde çalışan kütüphanecilerin e-kitap farkındalığı ve kullanımı
E-book use and awareness of public librarians
HATİCE ERKAL
Yüksek Lisans
Türkçe
2020
Bilgi ve Belge YönetimiÇankırı Karatekin ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KASIM BİNİCİ
- Terim ağırlıklandırma modellerinin ardıl işlemede kullanılması
Using term weighting models in post-processing
SERHAN ŞEN
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
- Yazma eserlerde bibliyografik niteleme: Rehber önerisi
Bibliographic description of manuscripts: A recommended guide
TUĞÇE KOZAN
Doktora
Türkçe
2023
Bilgi ve Belge YönetimiAnkara ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
PROF. DR. FATİH RUKANCI