Geri Dön

Document ranking by graph based lexical cohesion and term proximity computation

Çizge tabanlı sözcüksel bağdaşıklık ve terim yakınlık heabı ile belge sıralama

  1. Tez No: 177210
  2. Yazar: HAYRETTİN GÜRKÖK
  3. Danışmanlar: YRD. DOÇ. DR. H. MURAT KARAMÜFTÜOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Dokümantasyon ve Enformasyon, Computer Engineering and Computer Science and Control, Linguistics, Documentation and Information
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2008
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Okuma eylemi esnasında, her kelimenin anlamı, ondan önce gelen kelimelerin anlamları bağlamında işlenir. Geleneksel bilgi erişim sistemleri belgeleri tasnif etmek ve onlara erişmek için genellikle dizin terimleri kullanırlar. Fakat, metnin sıradan bir kelimeler kümesine dönüşmesi, belge ve sorgudaki anlamsal özellikleri de yok etmektedir. Bu durum, bilgi erişim işlemlerinde dilbilimsel teorileri uyarlamayı ve dil işleme tekniklerini uygulamayı mecbur kılmaktadır. Bir belgede dizin terimlerinin birlikte görülmesi tesadüfi değildir. Sıklıkla, bir belgede, bir kelimenin varlığı bir diğerinin varlığını çeker. Bu, tamlamalar gibi kısa mesafe (yakınlık) ya da sözcüksel bağdaşıklık olarak da adlandırılan uzun mesafe (geçişkenlik) ilişkisi şeklinde ortaya çıkabilir. Bağlam tespiti konusundayapılan çoğu çalışma ya kısa ya da uzun mesafe sözcüksel ilişkileri tahmin etmeye dayanmaktadır. Bu çalışmada, belgeler için bir çizge gösterimi ve bu gösterime dayalı yeni bir sıralama sistemi önerilmektedir. Çizgeler yardımı ile, hem kısa hem de uzun mesafe sözcüksel ilişkileri tek bir yapıda tutup, belgeler için bir bağlam puanı hesaplamak mümkün olmaktadır. Üç TREC belge kolleksiyonunda yapılan deneyler, Okapi BM25 erişim modeline kıyasla önemli başarım artışı göstermiştir. Ayrıca, belgelerde bulunan sorgu terimleri arasındaki bağdaşıklığın doğası ve eğilimi hakkında dilbilimsel sonuçlar elde edilmiştir.

Özet (Çeviri)

During the course of reading, the meaning of each word is processed in the context of the meaning of the preceding words in text. Traditional IR systems usually adopt index terms to index and retrieve documents. Unfortunately, a lot of the semantics in a document or query is lost when the text is replaced with just a set of words (bag-of-words). This makes it mandatory to adapt linguistic theories and incorporate language processing techniques into IR tasks. The occurrences of index terms in a document are motivated. Frequently, in a document, the appearance of one word attracts the appearance of another. This can occur in forms of short-distance relationships (proximity) like common noun phrases as well as long-distance relationships (transitivity) defined as lexical cohesion in text. Much of the work done on determining context is based on estimating either long-distance or short-distance word relationships in a document. This work proposes a graph representation for documents and a new matchingfunction based on this representation. By the use of graphs, it is possible to capture both short- and long-distance relationships in a single entity to calculate an overall context score. Experiments made on three TREC document collections showed significant performance improvements over the benchmark, Okapi BM25, retrieval model. Additionally, linguistic implications about the nature and trend of cohesion between query terms were achieved.

Benzer Tezler

  1. Probalistic argumentation systems entity-transitive relation-implication model and document ranking as an efficient application

    Olasılıksal muhakeme (argümanlama) sistemleri nesne-geçişsel ilişki-gerektirme modeli ve verimli uygulamaları

    BURAK ÇETİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. HALUK BİNGÖL

  2. Arabic text summarization using pagerank and word embedding algorithms

    Pagerank ve kelime gömme algoritmaları kullanarak Arapça metin özetleme

    GHADIR ABDULHAKIM ABDO ABDULLAH ALSELWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUĞRUL TAŞCI

  3. Akademik hukuk makalelerinde atıf önerisi

    Citation recommendation on scholarly legal articles

    DOĞUKAN ARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  4. Mimarlık yarışmaları için çoklu faktörlere göre entropi tabanlı bir tasarım değerlendirme modeli

    An entropy based design evaluation model for architectural competitions through multiple factors

    ORKAN ZEYNEL GÜZELCİ

    Doktora

    Türkçe

    Türkçe

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. SİNAN MERT ŞENER

  5. Çizge tabanlı metin özetleme

    Graph based text summarization

    CAN YALKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mühendislik BilimleriYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT