Geri Dön

Improving document ranking with query expansion based on bert word embeddings

Bert word embeddings'i temel alan sorgu genişletme ile belge sıralamasını geliştirme

  1. Tez No: 633400
  2. Yazar: DOĞUHAN YEKE
  3. Danışmanlar: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 72

Özet

Bu tezde, belge sıralaması performansını iyileştirmek için bağlamsal kelime düğünlerine dayanan bir sorgu genişletme yaklaşımı sunuyoruz. Orijinal sorguyu anlamsal olarak benzer terimlerle genişletmek için Transformers (BERT) kelime düğünlerinden Çift Yönlü Enkoder Temsilleri kullanıyoruz. BERT'den kelime düğünlerini çıkarmanın en iyi yöntemine karar verdikten sonra, sorgumuzu en iyi aday terimleriyle genişletiyoruz. Birincil hedefimiz olarak, BERT'nin vektör uzayındaki terimleri temsil etmek için en yaygın prosedür olarak bilinen Word2Vec modeli üzerinde nasıl performans gösterdiğini gösteriyoruz. Bundan sonra, alaka düzeyi karar listesinden yararlanarak, terimlerin tf-idf ve terim birlikte ortaya çıkma özelliklerini sorgu genişletme sistemimize entegre etmenin olumlu katkılarını gösteririz. Deneylerimiz, BERT'nin iyi bilinen değerlendirme metriklerinde Word2Vec'ten daha iyi performans gösterdiğini göstermektedir. Ayrıca, bilgi erişim sistemlerindeki en popüler sorunları ele alan çeşitli deneyler de yapıyoruz.

Özet (Çeviri)

In this thesis, we present a query expansion approach based on contextualized word embeddings for improving document ranking performance. We employ Bidirectional Encoder Representations from Transformers(BERT) word embeddings to expand the original query with semantically similar terms. After deciding the best method for extracting word embeddings from BERT, we extend our query with the best candidate terms. As our primary goal, we show how BERT performs over the Word2Vec model, known as the most common procedure for representing terms in the vector space. After that, by leveraging the relevance judgment list, we show positive contributions of integrating tf-idf and term co-occurrence properties of terms to our query expansion system. Our experiments demonstrate that BERT outperforms Word2Vec in well-known evaluation metrics. In addition, we also conduct several experiments that address the most popular issues in information retrieval systems.

Benzer Tezler

  1. Improving educational search and question answering

    Eğitsel arama ve soru cevaplandırmanın geliştirilmesi

    TOLGA YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖZGÜR ULUSOY

  2. Ortaöğretime geçiş sınavlarındaki fen bilimleri sorularının TIMMS-2019 bilişsel alanlarına göre incelenmesi

    Examination of science questions in secondary education entry exams according to the TIMMS-2019 cognitive domain

    BURCU ŞENGÜL YAPAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimManisa Celal Bayar Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZLEM ATEŞ

  3. Singapur'un ana dili öğretim programı ile Türkçe Dersi Öğretim Programı'nın karşılaştırılması

    A comparative study of the mother tongue curriculum in Singapore and the Turkish Language Curriculum

    DİLA CAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Eğitim ve ÖğretimGazi Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    DOÇ. DR. YUSUF GÜNAYDIN

  4. Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search

    Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma

    DERYA TANYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

    DOÇ. DR. SERKAN AYVAZ