Bilgi erişim sistemlerinde istatistiksel bağımsızlık esasında indeks terim ağırlıklandırma
Index term weighting based on statistical independence for information retrieval systems
- Tez No: 285226
- Danışmanlar: PROF. DR. BAHAR KARAOĞLAN, YRD. DOÇ. DR. BEKİR TANER DİNÇER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 146
Özet
Bu tezde bilgi erişim (kıs. BE) sistemlerinde indeks terim ağırlıklandırma (kıs. İTA) işlemi için iki farklı yaklaşımda özgün modeller geliştirilmiştir. Bağımsızlıktan sapma (İng. Divergence From Independence, kıs. DFI) ve Luhn-tabanlı modeller olarak adlandırılan bu iki yaklaşım, sırasıyla: `istatistiksel bağımsızlık fikri' ve `Luhn'un kelime frekansı ile kelime önemi ilişkisi hakkındaki iddiasını' temel almaktadır.Luhn'un iddiasının BE açısından geçerliliği detaylıca incelenmiş ve destekleyici bulgulara ulaşılmıştır. Luhn'un iddiasını nicel olarak gösteren ve `Terim Frekansı ? Ters Belge Frekansı' (İng. Term Frequency ? Inverse Document Frequency, kıs. TF ? IDF) şemasınını temel alan İTA formülleri: z puanları tabanlı ve medyan tabanlı olmak üzere iki farklı yöntemle oluşturulmuştur. Ortaya konulan modellere uygun İTA formüllerinin BE başarımları TREC (İng. Text Retrieval Conference) 6, 7 ve 8 anlık sorgu izi veri kümelerinde test edilmiştir. Bu testlerde elde edilen BE başarımları ile sunulan istatistiksel yaklaşımların indeks terim ağırlıklandırma probleminin çözümü için kullanılabileceği sonucuna varılmıştır.Bu tez kapsamında geliştirilen DFI ile ağırlıklandırma kullanan BE sistemi ile aktif olarak TREC-2009 ve TREC-2010'a katılınmıştır. Türkiye'den ilk defa katılınan 2009 yılındaki TREC'te yalnızca ağırlıklandırma ile bile ortalama bir başarım elde edilmiştir. BE işlemindeki temel bazı yöntemlerin DFI üzerine eklenmesi ile gerçekleştirilen yürütümler ile TREC-2010 web izi anlık sorgu görevinde en iyi sistemler arasına girilmiştir.
Özet (Çeviri)
In this thesis, two novel models are developed for index term weighting (ITW) process in information retrieval (IR) systems: one of these is based on statistical independence notion and named as divergence from independence model (DFI) and the other is based on Luhn?s claim on the relation between term frequency and term importance.Luhn?s claim?s validity in the scope of IR has been investigated elaborately and supporting findings are reached. In order to express Luhn?claim quantitatively, ITW formulas based on Term Frequency ? Inverse Document Frequency (TF ? IDF) schema are constructed by means of z scores and median approaches. The IR perfomances of ITW formulas of the developed models are tested on TREC (İng. Text Retrieval Conference) 6, 7 and 8 adhoc track datasets. IR perfomance analysis shows that presented statistical approaches can be used in the solution of index term weighting problem.Active participations in TREC-2009 and TREC-2010 have been carried out with the IR system which was developed around the idea of DFI weighting in the scope of this thesis. In TREC-2009, the IR system developed achieved average performance even it was using only ITW, and was actually the first participation from Turkey. The addition of some fundemantal methods on DFI have raised the performance of the IR system to the level of those ranking at the top in TREC-2010 web track adhoc task.
Benzer Tezler
- Bilgisayar ve internet destekli uzaktan eğitim programlarının tasarım, geliştirme ve değerlendirme aşamaları (SUZEP örneği)
Design, development and evaluating stages of computer and internet supported distance education program (on the model of SUZEP)
BİROL GÜLNAR
Yüksek Lisans
Türkçe
2003
Radyo-TelevizyonSelçuk ÜniversitesiRadyo Televizyon Ana Bilim Dalı
PROF.DR. AHMET HALUK YÜKSEL
- How does water scarcity affect agricultural productivity and food security? A case study on Morocco
Su kıtlığının tarımsal verimlilik ve gıda güvenliği üzerindeki etkileri: Fas örneği
ZAİNAB AL BATOUL MA-EL-AININ
Yüksek Lisans
İngilizce
2025
Ziraatİstanbul Teknik ÜniversitesiAfet ve Acil Durum Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HİKMET İSKENDER
- Haseki Eğitim Araştırma Hastanesi evde sağlık hizmetleri birimine kayıtlı bireylerde polifarmasi sıklığı ve ilişkili faktörler
Frequency of polypharmacy and related factors among individuals registered in the home health services unit of Haseki Training and Research Hospital
BEDRİYE BURCU DİRİÖZ
Tıpta Uzmanlık
Türkçe
2025
Aile HekimliğiSağlık Bilimleri ÜniversitesiAile Hekimliği Ana Bilim Dalı
DOÇ. DR. SABAH TÜZÜN
DR. BURCU HACIOĞLU
- Bilgi erişiminde dil sorunları
Language problems in information retrieval
AYKUT ARIKAN
Doktora
Türkçe
2005
Bilgi ve Belge Yönetimiİstanbul ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
DOÇ.DR. HASAN KESEROĞLU
- Açık erişim dergilerin bilimsel etkisi: Atıf dizinlerine dayalı bir araştırma
Scientific impact of open access journals: A research on citation indexes
ÇAĞDAŞ ÇAPKIN
Doktora
Türkçe
2019
Bilgi ve Belge Yönetimiİstanbul ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
PROF. DR. ÜMİT KONYA