Bilgi erişim sistemlerinde istatistiksel bağımsızlık esasında indeks terim ağırlıklandırma
Index term weighting based on statistical independence for information retrieval systems
- Tez No: 285226
- Danışmanlar: PROF. DR. BAHAR KARAOĞLAN, YRD. DOÇ. DR. BEKİR TANER DİNÇER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 146
Özet
Bu tezde bilgi erişim (kıs. BE) sistemlerinde indeks terim ağırlıklandırma (kıs. İTA) işlemi için iki farklı yaklaşımda özgün modeller geliştirilmiştir. Bağımsızlıktan sapma (İng. Divergence From Independence, kıs. DFI) ve Luhn-tabanlı modeller olarak adlandırılan bu iki yaklaşım, sırasıyla: `istatistiksel bağımsızlık fikri' ve `Luhn'un kelime frekansı ile kelime önemi ilişkisi hakkındaki iddiasını' temel almaktadır.Luhn'un iddiasının BE açısından geçerliliği detaylıca incelenmiş ve destekleyici bulgulara ulaşılmıştır. Luhn'un iddiasını nicel olarak gösteren ve `Terim Frekansı ? Ters Belge Frekansı' (İng. Term Frequency ? Inverse Document Frequency, kıs. TF ? IDF) şemasınını temel alan İTA formülleri: z puanları tabanlı ve medyan tabanlı olmak üzere iki farklı yöntemle oluşturulmuştur. Ortaya konulan modellere uygun İTA formüllerinin BE başarımları TREC (İng. Text Retrieval Conference) 6, 7 ve 8 anlık sorgu izi veri kümelerinde test edilmiştir. Bu testlerde elde edilen BE başarımları ile sunulan istatistiksel yaklaşımların indeks terim ağırlıklandırma probleminin çözümü için kullanılabileceği sonucuna varılmıştır.Bu tez kapsamında geliştirilen DFI ile ağırlıklandırma kullanan BE sistemi ile aktif olarak TREC-2009 ve TREC-2010'a katılınmıştır. Türkiye'den ilk defa katılınan 2009 yılındaki TREC'te yalnızca ağırlıklandırma ile bile ortalama bir başarım elde edilmiştir. BE işlemindeki temel bazı yöntemlerin DFI üzerine eklenmesi ile gerçekleştirilen yürütümler ile TREC-2010 web izi anlık sorgu görevinde en iyi sistemler arasına girilmiştir.
Özet (Çeviri)
In this thesis, two novel models are developed for index term weighting (ITW) process in information retrieval (IR) systems: one of these is based on statistical independence notion and named as divergence from independence model (DFI) and the other is based on Luhn?s claim on the relation between term frequency and term importance.Luhn?s claim?s validity in the scope of IR has been investigated elaborately and supporting findings are reached. In order to express Luhn?claim quantitatively, ITW formulas based on Term Frequency ? Inverse Document Frequency (TF ? IDF) schema are constructed by means of z scores and median approaches. The IR perfomances of ITW formulas of the developed models are tested on TREC (İng. Text Retrieval Conference) 6, 7 and 8 adhoc track datasets. IR perfomance analysis shows that presented statistical approaches can be used in the solution of index term weighting problem.Active participations in TREC-2009 and TREC-2010 have been carried out with the IR system which was developed around the idea of DFI weighting in the scope of this thesis. In TREC-2009, the IR system developed achieved average performance even it was using only ITW, and was actually the first participation from Turkey. The addition of some fundemantal methods on DFI have raised the performance of the IR system to the level of those ranking at the top in TREC-2010 web track adhoc task.
Benzer Tezler
- Bilgisayar ve internet destekli uzaktan eğitim programlarının tasarım, geliştirme ve değerlendirme aşamaları (SUZEP örneği)
Design, development and evaluating stages of computer and internet supported distance education program (on the model of SUZEP)
BİROL GÜLNAR
Yüksek Lisans
Türkçe
2003
Radyo-TelevizyonSelçuk ÜniversitesiRadyo Televizyon Ana Bilim Dalı
PROF.DR. AHMET HALUK YÜKSEL
- Bilgi erişiminde dil sorunları
Language problems in information retrieval
AYKUT ARIKAN
Doktora
Türkçe
2005
Bilgi ve Belge Yönetimiİstanbul ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
DOÇ.DR. HASAN KESEROĞLU
- Açık erişim dergilerin bilimsel etkisi: Atıf dizinlerine dayalı bir araştırma
Scientific impact of open access journals: A research on citation indexes
ÇAĞDAŞ ÇAPKIN
Doktora
Türkçe
2019
Bilgi ve Belge Yönetimiİstanbul ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
PROF. DR. ÜMİT KONYA
- Türkçe için metin özetleme
Text summarization for Turkish
MESUT TÜLEK
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. EŞREF ADALI
- Secure and coordinated beamforming in 5G and beyond systems using deep neural networks
5G ve ötesi sistemlerde derin sinir ağları kullanarak güvenli ve koordineli hüzmeleme
UTKU ÖZMAT
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET AKİF YAZICI
DR. ÖĞR. ÜYESİ MEHMET FATİH DEMİRKOL