Exploiting word and sentence embeddings for diversification in crawling and ranking

Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma

PDF İndir

Tez No: 764531
Yazar: CAN DURAN ÜNALDI
Danışmanlar: DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 120

Özet

Web ve mikroblog sitelerinin hacmindeki artışın yarattığı çok sayıda kopya veya kopyaya yakın içerik çeşitlendirme paradigmasını ortaya çıkardı. Tipik bir arama sisteminde üç ana bileşen bulunmaktadır, bunlar tarayıcı, endeksleyici ve sorgu işleyicisidir. Çoğu çeşitlendirme yöntemi sorgu işleme bileşenini hedeflerken, bu çalışmada çeşitlendirme paradigmasını hem tarayıcı hem de sorgu işleyiciye uygulamak hedeflenmektedir. Öncelikle, sorgunun alt anlamlarını kullanarak alt anlamları dengeli bir dağılımda içeren bir koleksiyon oluşturmayı amaçlayan çeşitlendirmeye duyarlı odaklı tarayıcı geliştirildi. Sonrasında, sorgu işleme aşaması için sosyal medya içerikleri gibi kısa metinleri çeşitlendirmeye odaklanıldı. Her iki katkıda da, literatürde tanınmış çeşitlendirme yaklaşımları uygulandı ve bir çok bilgi getirimi ve doğal dil işleme yönteminde kullanılmış modern sinirsel dil modelleri kullanılarak bu yaklaşımlar genişletildi. Her iki yaklaşım da iyi hazırlanmış deney ortamlarında denendiğinde çeşitlendirme paradigmasının hem tarama aşamasında hem de kısa metinlerde başarılı olduğu görüldü. Ayrıca, çeşitlendirme paradigması için sinirsel dil modellerinin kıyaslanabilir sonuçlar aldığı görüldü.

Özet (Çeviri)

The increase in the volume of the Web and Microblogging sites caused copious amounts of duplicate or near duplicate content which emerged the diversification paradigm. On a typical search system, there are three main components, namely, a crawler, an indexer and a query processor. While most diversification approaches aim at the query processing stage of the search system, in this work, we aim to apply the diversification paradigm to both crawling and query processing stages. First, we introduce a diversification-aware focused crawler, which considers all the aspects of a given search query in order to construct a collection that contains equal coverage of them. Second, we focus on the diversification of short texts, such as social media posts, for the query processing stage. For both contributions, we apply well-known diversification approaches in the literature and extend them by exploiting the neural language models that are state-of-the-art for several information retrieval and natural language processing tasks. Our experiments, in which we evaluate both approaches with well-crafted experimental setups, show that the diversification paradigm is successful for both the crawling stage and short texts. Moreover, neural language models perform comparable results for the diversification paradigm.

Benzer Tezler

Tez No
496320
Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
669110
Neural named entity recognition for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde sinir ağı tabanlı varlık ismi tanıma
ONUR GÜNGÖR
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
ÖĞR. GÖR. SUZAN ÜSKÜDARLI
Tez No
895368
Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
459436
A semantic sentence similarity estimation approach for the biomedical domain
Biyomedikal alanda anlamsal cümle benzerliği hesaplama yöntemi
GİZEM SOĞANCIOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez No
630126
Almanca ve Türkçede cümle ögeleri. Biçimbilimsel ve sözdizimsel bir karşılaştırma
Satzglieder im Deutschen und im Türkischen. Ein morpho-syntaktischer vergleich
HÜSSAM SERHAT DAŞCI
Yüksek Lisans
Türkçe
2020
Alman Dili ve Edebiyatı Ankara Üniversitesi
Batı Dilleri ve Edebiyatları Ana Bilim Dalı
PROF. DR. DURSUN ZENGİN

Geri Dön