Geri Dön

Parallel text retrieval on temporally versioned document collections

Zamansal sürümlendirilmiş doküman koleksiyonlarında paralel metin erişimi

  1. Tez No: 177216
  2. Yazar: ÖZLEM GÜR
  3. Danışmanlar: PROF. DR. CEVDET AYKANAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Son yıllarda, İnternet erişimi giderek kolaylaştıkça ve ucuzladıkça, İnternetkullanıcılarına sunulan verinin miktarı ve değişim hızı şaşırtıcı boyutlaraulaşmaktadır. İnternet'in sürekli değişen yapısı, yeni verilerin kimi zamanönemini kaybetmemiş eski verilerin yerini aldığı, sürekli değişen ve güncellenen birbilgi kolleksiyonunu doğurur. Bu önemli zamansal verileri korumayı amaçlayançok sayıda yeni çalışma literatürde mevcuttur ve bu çalışmaların sayıları kadararşiv boyutları da gün geçtikçe artmaktadır. İnanıyoruz ki, yakın gelecekte,geniş kapsamlı zamansal ağ veri kolleksiyonlarına erişebilme hedefi doğrultusunda,makul bir süre zarfında zaman aralığı sorgularına cevap verebilen metin erişimisistemleri ortaya çıkacaktır. Zamansal verilerin devasa boyutları ve birim zamanadüşen aşırı miktardaki sorgu sayısı, zamansal bilgi erişimi sistemlerini mümkünolduğunca paralel uygulamaları kullanmaya itecektir. Paralel sistemlerde, verikolleksiyonlarını ters dizin endekslerini kullanarak endekslemek için, ters dizinendekslerinin dağıtımı üzerine bir strateji izlenmelidir. Bu çalışmada, zamanagöre ve terimlere göre bölümlendirilmiş zamansal ağ ters dizin endekslerininyapılabilirliği incelenmiş ve birim zamanda cevaplanan sorgu sayısı göz önündebulundurularak, zamansal ağ sorgularını cevaplayabilen yeni bir paralel metinerişimi sistemi uygulaması sunulmuştur. Ayrıca, atlama listelerini ve rasgeleseçim algoritmalarını kullanarak sorgu sonuçlarını sıralayan yöntemlerin zamanagöre bölümleme şeması üzerindeki performansları karşılaştırılmıştır. Küçük veorta sayıdaki işlemciler üzerinde yapılan deneyler, orta ve uzun sorguların zamanagöre bölümlenmiş ters dizinlerde daha iyi sonuç verdiğini ortaya koymuştur.

Özet (Çeviri)

In recent years, as the access to the Internet is getting easier andcheaper, the amount and the rate of change of the online datapresented to the Internet users are increasing at an astonishingrate. This ever-changing nature of the Internet causes anever-decaying and replenishing information collection where newlypresented data generally replaces old and sometimes valuable data.There are many recent studies aiming to preserve this valuabletemporal data and size and number of temporal Web data collectionsare increasing. We believe that soon, information retrieval systemsresponding to time-range queries in a reasonable amount of time willemerge as a means of accessing vast temporal Web data collections.Due to tremendous size of temporal data and excessive number ofquery submissions per unit time, temporal information retrievalsystems will have to utilize parallelism as much as possible.In parallel systems, in order to index collections using invertedindices, a strategy on distribution of the inverted indices has tobe followed. In this study, the feasibility of time-basedpartitioned versus term-based partitioned temporal-webinverted-indices is analyzed and a novel parallel text retrievalsystem for answering temporal web queries is implemented consideringthe number of queries processed in unit time. Moreover, weinvestigate the performance of skip-list based and randomized-selectbased ranking schemes on time-based and term-based partitionedinverted indexes. Finally, we compare time-balanced andsize-balanced time-based partitioning schemes. The experimentalresults at small to medium number of processors reveal that formedium to long length queries time-based partitioning works better.

Benzer Tezler

  1. How cryptographic implementations affect mobile agent systems

    Şifreleme gerçekleştirmelerinin gezgin aracı internet sistemlerini nasıl etkilediği

    İSMAİL ULUKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF. DR. EMİN ANARIM

  2. Parallel text retrieval on PC clusters

    PC kümeleri üzerinde paralel metin erişimi

    AYTÜL ÇATAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVDET AYKANAT

  3. Performance comparison of query evaluation techniques in parallel text retrieval

    Paralel metin erişim sistemlerinde sorgu işleme tekniklerinin karşılaştırılması

    AYŞE AYLİN TOKUÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. CEVDET AYKANAT

  4. Models and algorithms for parallel text retrieval

    Paralel metin getirme için modeller ve algoritmalar

    BERKANT BARLA CAMBAZOĞLU

    Doktora

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. CEVDET AYKANAT

  5. Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği

    Mining Turkish documents by meaning based techniques

    AHMET GÜVEN

    Doktora

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OYA KALIPSIZ