Geri Dön

Bilgi erişim sistemlerinde istatistiksel bağımsızlık esasında indeks terim ağırlıklandırma

Index term weighting based on statistical independence for information retrieval systems

  1. Tez No: 285226
  2. Yazar: İLKER KOCABAŞ
  3. Danışmanlar: PROF. DR. BAHAR KARAOĞLAN, YRD. DOÇ. DR. BEKİR TANER DİNÇER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 146

Özet

Bu tezde bilgi erişim (kıs. BE) sistemlerinde indeks terim ağırlıklandırma (kıs. İTA) işlemi için iki farklı yaklaşımda özgün modeller geliştirilmiştir. Bağımsızlıktan sapma (İng. Divergence From Independence, kıs. DFI) ve Luhn-tabanlı modeller olarak adlandırılan bu iki yaklaşım, sırasıyla: `istatistiksel bağımsızlık fikri' ve `Luhn'un kelime frekansı ile kelime önemi ilişkisi hakkındaki iddiasını' temel almaktadır.Luhn'un iddiasının BE açısından geçerliliği detaylıca incelenmiş ve destekleyici bulgulara ulaşılmıştır. Luhn'un iddiasını nicel olarak gösteren ve `Terim Frekansı ? Ters Belge Frekansı' (İng. Term Frequency ? Inverse Document Frequency, kıs. TF ? IDF) şemasınını temel alan İTA formülleri: z puanları tabanlı ve medyan tabanlı olmak üzere iki farklı yöntemle oluşturulmuştur. Ortaya konulan modellere uygun İTA formüllerinin BE başarımları TREC (İng. Text Retrieval Conference) 6, 7 ve 8 anlık sorgu izi veri kümelerinde test edilmiştir. Bu testlerde elde edilen BE başarımları ile sunulan istatistiksel yaklaşımların indeks terim ağırlıklandırma probleminin çözümü için kullanılabileceği sonucuna varılmıştır.Bu tez kapsamında geliştirilen DFI ile ağırlıklandırma kullanan BE sistemi ile aktif olarak TREC-2009 ve TREC-2010'a katılınmıştır. Türkiye'den ilk defa katılınan 2009 yılındaki TREC'te yalnızca ağırlıklandırma ile bile ortalama bir başarım elde edilmiştir. BE işlemindeki temel bazı yöntemlerin DFI üzerine eklenmesi ile gerçekleştirilen yürütümler ile TREC-2010 web izi anlık sorgu görevinde en iyi sistemler arasına girilmiştir.

Özet (Çeviri)

In this thesis, two novel models are developed for index term weighting (ITW) process in information retrieval (IR) systems: one of these is based on statistical independence notion and named as divergence from independence model (DFI) and the other is based on Luhn?s claim on the relation between term frequency and term importance.Luhn?s claim?s validity in the scope of IR has been investigated elaborately and supporting findings are reached. In order to express Luhn?claim quantitatively, ITW formulas based on Term Frequency ? Inverse Document Frequency (TF ? IDF) schema are constructed by means of z scores and median approaches. The IR perfomances of ITW formulas of the developed models are tested on TREC (İng. Text Retrieval Conference) 6, 7 and 8 adhoc track datasets. IR perfomance analysis shows that presented statistical approaches can be used in the solution of index term weighting problem.Active participations in TREC-2009 and TREC-2010 have been carried out with the IR system which was developed around the idea of DFI weighting in the scope of this thesis. In TREC-2009, the IR system developed achieved average performance even it was using only ITW, and was actually the first participation from Turkey. The addition of some fundemantal methods on DFI have raised the performance of the IR system to the level of those ranking at the top in TREC-2010 web track adhoc task.

Benzer Tezler

  1. Bilgisayar ve internet destekli uzaktan eğitim programlarının tasarım, geliştirme ve değerlendirme aşamaları (SUZEP örneği)

    Design, development and evaluating stages of computer and internet supported distance education program (on the model of SUZEP)

    BİROL GÜLNAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Radyo-TelevizyonSelçuk Üniversitesi

    Radyo Televizyon Ana Bilim Dalı

    PROF.DR. AHMET HALUK YÜKSEL

  2. Bilgi erişiminde dil sorunları

    Language problems in information retrieval

    AYKUT ARIKAN

    Doktora

    Türkçe

    Türkçe

    2005

    Bilgi ve Belge Yönetimiİstanbul Üniversitesi

    Bilgi ve Belge Yönetimi Ana Bilim Dalı

    DOÇ.DR. HASAN KESEROĞLU

  3. Açık erişim dergilerin bilimsel etkisi: Atıf dizinlerine dayalı bir araştırma

    Scientific impact of open access journals: A research on citation indexes

    ÇAĞDAŞ ÇAPKIN

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgi ve Belge Yönetimiİstanbul Üniversitesi

    Bilgi ve Belge Yönetimi Ana Bilim Dalı

    PROF. DR. ÜMİT KONYA

  4. Türkçe için metin özetleme

    Text summarization for Turkish

    MESUT TÜLEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. EŞREF ADALI

  5. Secure and coordinated beamforming in 5G and beyond systems using deep neural networks

    5G ve ötesi sistemlerde derin sinir ağları kullanarak güvenli ve koordineli hüzmeleme

    UTKU ÖZMAT

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET AKİF YAZICI

    DR. ÖĞR. ÜYESİ MEHMET FATİH DEMİRKOL