Geri Dön

Improving document ranking with query expansion based on bert word embeddings

Bert word embeddings'i temel alan sorgu genişletme ile belge sıralamasını geliştirme

  1. Tez No: 633400
  2. Yazar: DOĞUHAN YEKE
  3. Danışmanlar: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 72

Özet

Bu tezde, belge sıralaması performansını iyileştirmek için bağlamsal kelime düğünlerine dayanan bir sorgu genişletme yaklaşımı sunuyoruz. Orijinal sorguyu anlamsal olarak benzer terimlerle genişletmek için Transformers (BERT) kelime düğünlerinden Çift Yönlü Enkoder Temsilleri kullanıyoruz. BERT'den kelime düğünlerini çıkarmanın en iyi yöntemine karar verdikten sonra, sorgumuzu en iyi aday terimleriyle genişletiyoruz. Birincil hedefimiz olarak, BERT'nin vektör uzayındaki terimleri temsil etmek için en yaygın prosedür olarak bilinen Word2Vec modeli üzerinde nasıl performans gösterdiğini gösteriyoruz. Bundan sonra, alaka düzeyi karar listesinden yararlanarak, terimlerin tf-idf ve terim birlikte ortaya çıkma özelliklerini sorgu genişletme sistemimize entegre etmenin olumlu katkılarını gösteririz. Deneylerimiz, BERT'nin iyi bilinen değerlendirme metriklerinde Word2Vec'ten daha iyi performans gösterdiğini göstermektedir. Ayrıca, bilgi erişim sistemlerindeki en popüler sorunları ele alan çeşitli deneyler de yapıyoruz.

Özet (Çeviri)

In this thesis, we present a query expansion approach based on contextualized word embeddings for improving document ranking performance. We employ Bidirectional Encoder Representations from Transformers(BERT) word embeddings to expand the original query with semantically similar terms. After deciding the best method for extracting word embeddings from BERT, we extend our query with the best candidate terms. As our primary goal, we show how BERT performs over the Word2Vec model, known as the most common procedure for representing terms in the vector space. After that, by leveraging the relevance judgment list, we show positive contributions of integrating tf-idf and term co-occurrence properties of terms to our query expansion system. Our experiments demonstrate that BERT outperforms Word2Vec in well-known evaluation metrics. In addition, we also conduct several experiments that address the most popular issues in information retrieval systems.

Benzer Tezler

  1. Improving educational search and question answering

    Eğitsel arama ve soru cevaplandırmanın geliştirilmesi

    TOLGA YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  2. Ortaöğretime geçiş sınavlarındaki fen bilimleri sorularının TIMMS-2019 bilişsel alanlarına göre incelenmesi

    Examination of science questions in secondary education entry exams according to the TIMMS-2019 cognitive domain

    BURCU ŞENGÜL YAPAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimManisa Celal Bayar Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZLEM ATEŞ

  3. Liman topluluk sistemi, kara terminali demiryolu bağlantısı ve sahil güç besleme sistemi olanakları ile çok amaçlı bir limanın rekabetçiliğinin geliştirilmesi

    Improving competitiveness level of a multipurpose port by port community system, dry port railway connection and on shore power supply system opportunities

    SELİM AKSOY

    Doktora

    Türkçe

    Türkçe

    2017

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YALÇIN DURMUŞOĞLU

  4. Determining maritime cyber security dynamics on the perspective of marine insurance and development of maritime cyber security risk management tool

    Denizcilik sigortaları açısından deniz siber güvenlik dinamiklerinin belirlenmesi ve deniz siber güvenlik risk yönetim aracının geliştirilmesi

    GİZEM KAYİŞOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PELİN BOLAT