Improving document ranking with query expansion based on bert word embeddings
Bert word embeddings'i temel alan sorgu genişletme ile belge sıralamasını geliştirme
- Tez No: 633400
- Danışmanlar: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 72
Özet
Bu tezde, belge sıralaması performansını iyileştirmek için bağlamsal kelime düğünlerine dayanan bir sorgu genişletme yaklaşımı sunuyoruz. Orijinal sorguyu anlamsal olarak benzer terimlerle genişletmek için Transformers (BERT) kelime düğünlerinden Çift Yönlü Enkoder Temsilleri kullanıyoruz. BERT'den kelime düğünlerini çıkarmanın en iyi yöntemine karar verdikten sonra, sorgumuzu en iyi aday terimleriyle genişletiyoruz. Birincil hedefimiz olarak, BERT'nin vektör uzayındaki terimleri temsil etmek için en yaygın prosedür olarak bilinen Word2Vec modeli üzerinde nasıl performans gösterdiğini gösteriyoruz. Bundan sonra, alaka düzeyi karar listesinden yararlanarak, terimlerin tf-idf ve terim birlikte ortaya çıkma özelliklerini sorgu genişletme sistemimize entegre etmenin olumlu katkılarını gösteririz. Deneylerimiz, BERT'nin iyi bilinen değerlendirme metriklerinde Word2Vec'ten daha iyi performans gösterdiğini göstermektedir. Ayrıca, bilgi erişim sistemlerindeki en popüler sorunları ele alan çeşitli deneyler de yapıyoruz.
Özet (Çeviri)
In this thesis, we present a query expansion approach based on contextualized word embeddings for improving document ranking performance. We employ Bidirectional Encoder Representations from Transformers(BERT) word embeddings to expand the original query with semantically similar terms. After deciding the best method for extracting word embeddings from BERT, we extend our query with the best candidate terms. As our primary goal, we show how BERT performs over the Word2Vec model, known as the most common procedure for representing terms in the vector space. After that, by leveraging the relevance judgment list, we show positive contributions of integrating tf-idf and term co-occurrence properties of terms to our query expansion system. Our experiments demonstrate that BERT outperforms Word2Vec in well-known evaluation metrics. In addition, we also conduct several experiments that address the most popular issues in information retrieval systems.
Benzer Tezler
- Improving educational search and question answering
Eğitsel arama ve soru cevaplandırmanın geliştirilmesi
TOLGA YILMAZ
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR ULUSOY
- An evaluation of the performance of a NoSQL document database in a simulation of a large scale electronic health record (EHR) system
Başlık çevirisi yok
MEHMET ZAHİD ERCAN
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of QueenslandDr. MICHAEL LANE
Prof. RAJ GURURAJAN
- Ortaöğretime geçiş sınavlarındaki fen bilimleri sorularının TIMMS-2019 bilişsel alanlarına göre incelenmesi
Examination of science questions in secondary education entry exams according to the TIMMS-2019 cognitive domain
BURCU ŞENGÜL YAPAR
Yüksek Lisans
Türkçe
2021
Eğitim ve ÖğretimManisa Celal Bayar ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZLEM ATEŞ
- Singapur'un ana dili öğretim programı ile Türkçe Dersi Öğretim Programı'nın karşılaştırılması
A comparative study of the mother tongue curriculum in Singapore and the Turkish Language Curriculum
DİLA CAN
Yüksek Lisans
Türkçe
2025
Eğitim ve ÖğretimGazi ÜniversitesiTürkçe Eğitimi Ana Bilim Dalı
DOÇ. DR. YUSUF GÜNAYDIN
- Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ