Document ranking by graph based lexical cohesion and term proximity computation
Çizge tabanlı sözcüksel bağdaşıklık ve terim yakınlık heabı ile belge sıralama
- Tez No: 177210
- Danışmanlar: YRD. DOÇ. DR. H. MURAT KARAMÜFTÜOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Dokümantasyon ve Enformasyon, Computer Engineering and Computer Science and Control, Linguistics, Documentation and Information
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 78
Özet
Okuma eylemi esnasında, her kelimenin anlamı, ondan önce gelen kelimelerin anlamları bağlamında işlenir. Geleneksel bilgi erişim sistemleri belgeleri tasnif etmek ve onlara erişmek için genellikle dizin terimleri kullanırlar. Fakat, metnin sıradan bir kelimeler kümesine dönüşmesi, belge ve sorgudaki anlamsal özellikleri de yok etmektedir. Bu durum, bilgi erişim işlemlerinde dilbilimsel teorileri uyarlamayı ve dil işleme tekniklerini uygulamayı mecbur kılmaktadır. Bir belgede dizin terimlerinin birlikte görülmesi tesadüfi değildir. Sıklıkla, bir belgede, bir kelimenin varlığı bir diğerinin varlığını çeker. Bu, tamlamalar gibi kısa mesafe (yakınlık) ya da sözcüksel bağdaşıklık olarak da adlandırılan uzun mesafe (geçişkenlik) ilişkisi şeklinde ortaya çıkabilir. Bağlam tespiti konusundayapılan çoğu çalışma ya kısa ya da uzun mesafe sözcüksel ilişkileri tahmin etmeye dayanmaktadır. Bu çalışmada, belgeler için bir çizge gösterimi ve bu gösterime dayalı yeni bir sıralama sistemi önerilmektedir. Çizgeler yardımı ile, hem kısa hem de uzun mesafe sözcüksel ilişkileri tek bir yapıda tutup, belgeler için bir bağlam puanı hesaplamak mümkün olmaktadır. Üç TREC belge kolleksiyonunda yapılan deneyler, Okapi BM25 erişim modeline kıyasla önemli başarım artışı göstermiştir. Ayrıca, belgelerde bulunan sorgu terimleri arasındaki bağdaşıklığın doğası ve eğilimi hakkında dilbilimsel sonuçlar elde edilmiştir.
Özet (Çeviri)
During the course of reading, the meaning of each word is processed in the context of the meaning of the preceding words in text. Traditional IR systems usually adopt index terms to index and retrieve documents. Unfortunately, a lot of the semantics in a document or query is lost when the text is replaced with just a set of words (bag-of-words). This makes it mandatory to adapt linguistic theories and incorporate language processing techniques into IR tasks. The occurrences of index terms in a document are motivated. Frequently, in a document, the appearance of one word attracts the appearance of another. This can occur in forms of short-distance relationships (proximity) like common noun phrases as well as long-distance relationships (transitivity) defined as lexical cohesion in text. Much of the work done on determining context is based on estimating either long-distance or short-distance word relationships in a document. This work proposes a graph representation for documents and a new matchingfunction based on this representation. By the use of graphs, it is possible to capture both short- and long-distance relationships in a single entity to calculate an overall context score. Experiments made on three TREC document collections showed significant performance improvements over the benchmark, Okapi BM25, retrieval model. Additionally, linguistic implications about the nature and trend of cohesion between query terms were achieved.
Benzer Tezler
- Probalistic argumentation systems entity-transitive relation-implication model and document ranking as an efficient application
Olasılıksal muhakeme (argümanlama) sistemleri nesne-geçişsel ilişki-gerektirme modeli ve verimli uygulamaları
BURAK ÇETİN
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. HALUK BİNGÖL
- Arabic text summarization using pagerank and word embedding algorithms
Pagerank ve kelime gömme algoritmaları kullanarak Arapça metin özetleme
GHADIR ABDULHAKIM ABDO ABDULLAH ALSELWI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUĞRUL TAŞCI
- Akademik hukuk makalelerinde atıf önerisi
Citation recommendation on scholarly legal articles
DOĞUKAN ARSLAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Mimarlık yarışmaları için çoklu faktörlere göre entropi tabanlı bir tasarım değerlendirme modeli
An entropy based design evaluation model for architectural competitions through multiple factors
ORKAN ZEYNEL GÜZELCİ
Doktora
Türkçe
2018
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. SİNAN MERT ŞENER
- Çizge tabanlı metin özetleme
Graph based text summarization
CAN YALKIN
Yüksek Lisans
Türkçe
2014
Mühendislik BilimleriYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT