Document ranking by graph based lexical cohesion and term proximity computation

Çizge tabanlı sözcüksel bağdaşıklık ve terim yakınlık heabı ile belge sıralama

PDF İndir

Tez No: 177210
Yazar: HAYRETTİN GÜRKÖK
Danışmanlar: YRD. DOÇ. DR. H. MURAT KARAMÜFTÜOĞLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Dokümantasyon ve Enformasyon, Computer Engineering and Computer Science and Control, Linguistics, Documentation and Information
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2008
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 78

Özet

Okuma eylemi esnasında, her kelimenin anlamı, ondan önce gelen kelimelerin anlamları bağlamında işlenir. Geleneksel bilgi erişim sistemleri belgeleri tasnif etmek ve onlara erişmek için genellikle dizin terimleri kullanırlar. Fakat, metnin sıradan bir kelimeler kümesine dönüşmesi, belge ve sorgudaki anlamsal özellikleri de yok etmektedir. Bu durum, bilgi erişim işlemlerinde dilbilimsel teorileri uyarlamayı ve dil işleme tekniklerini uygulamayı mecbur kılmaktadır. Bir belgede dizin terimlerinin birlikte görülmesi tesadüfi değildir. Sıklıkla, bir belgede, bir kelimenin varlığı bir diğerinin varlığını çeker. Bu, tamlamalar gibi kısa mesafe (yakınlık) ya da sözcüksel bağdaşıklık olarak da adlandırılan uzun mesafe (geçişkenlik) ilişkisi şeklinde ortaya çıkabilir. Bağlam tespiti konusundayapılan çoğu çalışma ya kısa ya da uzun mesafe sözcüksel ilişkileri tahmin etmeye dayanmaktadır. Bu çalışmada, belgeler için bir çizge gösterimi ve bu gösterime dayalı yeni bir sıralama sistemi önerilmektedir. Çizgeler yardımı ile, hem kısa hem de uzun mesafe sözcüksel ilişkileri tek bir yapıda tutup, belgeler için bir bağlam puanı hesaplamak mümkün olmaktadır. Üç TREC belge kolleksiyonunda yapılan deneyler, Okapi BM25 erişim modeline kıyasla önemli başarım artışı göstermiştir. Ayrıca, belgelerde bulunan sorgu terimleri arasındaki bağdaşıklığın doğası ve eğilimi hakkında dilbilimsel sonuçlar elde edilmiştir.

Özet (Çeviri)

During the course of reading, the meaning of each word is processed in the context of the meaning of the preceding words in text. Traditional IR systems usually adopt index terms to index and retrieve documents. Unfortunately, a lot of the semantics in a document or query is lost when the text is replaced with just a set of words (bag-of-words). This makes it mandatory to adapt linguistic theories and incorporate language processing techniques into IR tasks. The occurrences of index terms in a document are motivated. Frequently, in a document, the appearance of one word attracts the appearance of another. This can occur in forms of short-distance relationships (proximity) like common noun phrases as well as long-distance relationships (transitivity) defined as lexical cohesion in text. Much of the work done on determining context is based on estimating either long-distance or short-distance word relationships in a document. This work proposes a graph representation for documents and a new matchingfunction based on this representation. By the use of graphs, it is possible to capture both short- and long-distance relationships in a single entity to calculate an overall context score. Experiments made on three TREC document collections showed significant performance improvements over the benchmark, Okapi BM25, retrieval model. Additionally, linguistic implications about the nature and trend of cohesion between query terms were achieved.

Benzer Tezler

Tez No
196823
Probalistic argumentation systems entity-transitive relation-implication model and document ranking as an efficient application
Olasılıksal muhakeme (argümanlama) sistemleri nesne-geçişsel ilişki-gerektirme modeli ve verimli uygulamaları
BURAK ÇETİN
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. HALUK BİNGÖL
Tez No
753032
Arabic text summarization using pagerank and word embedding algorithms
Pagerank ve kelime gömme algoritmaları kullanarak Arapça metin özetleme
GHADIR ABDULHAKIM ABDO ABDULLAH ALSELWI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUĞRUL TAŞCI
Tez No
807250
Akademik hukuk makalelerinde atıf önerisi
Citation recommendation on scholarly legal articles
DOĞUKAN ARSLAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
Tez No
540275
Mimarlık yarışmaları için çoklu faktörlere göre entropi tabanlı bir tasarım değerlendirme modeli
An entropy based design evaluation model for architectural competitions through multiple factors
ORKAN ZEYNEL GÜZELCİ
Doktora
Türkçe
2018
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
PROF. DR. SİNAN MERT ŞENER
Tez No
930713
Uçtan uca derin öğrenme yaklaşımlarıyla Türkçe eşgönderge çözümlemesi
Neural end to end Turkish coreference resolution
TUĞBA PAMAY ARSLAN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLŞEN ERYİĞİT

Geri Dön