Exploiting word and sentence embeddings for diversification in crawling and ranking
Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma
- Tez No: 764531
- Danışmanlar: DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 120
Özet
Web ve mikroblog sitelerinin hacmindeki artışın yarattığı çok sayıda kopya veya kopyaya yakın içerik çeşitlendirme paradigmasını ortaya çıkardı. Tipik bir arama sisteminde üç ana bileşen bulunmaktadır, bunlar tarayıcı, endeksleyici ve sorgu işleyicisidir. Çoğu çeşitlendirme yöntemi sorgu işleme bileşenini hedeflerken, bu çalışmada çeşitlendirme paradigmasını hem tarayıcı hem de sorgu işleyiciye uygulamak hedeflenmektedir. Öncelikle, sorgunun alt anlamlarını kullanarak alt anlamları dengeli bir dağılımda içeren bir koleksiyon oluşturmayı amaçlayan çeşitlendirmeye duyarlı odaklı tarayıcı geliştirildi. Sonrasında, sorgu işleme aşaması için sosyal medya içerikleri gibi kısa metinleri çeşitlendirmeye odaklanıldı. Her iki katkıda da, literatürde tanınmış çeşitlendirme yaklaşımları uygulandı ve bir çok bilgi getirimi ve doğal dil işleme yönteminde kullanılmış modern sinirsel dil modelleri kullanılarak bu yaklaşımlar genişletildi. Her iki yaklaşım da iyi hazırlanmış deney ortamlarında denendiğinde çeşitlendirme paradigmasının hem tarama aşamasında hem de kısa metinlerde başarılı olduğu görüldü. Ayrıca, çeşitlendirme paradigması için sinirsel dil modellerinin kıyaslanabilir sonuçlar aldığı görüldü.
Özet (Çeviri)
The increase in the volume of the Web and Microblogging sites caused copious amounts of duplicate or near duplicate content which emerged the diversification paradigm. On a typical search system, there are three main components, namely, a crawler, an indexer and a query processor. While most diversification approaches aim at the query processing stage of the search system, in this work, we aim to apply the diversification paradigm to both crawling and query processing stages. First, we introduce a diversification-aware focused crawler, which considers all the aspects of a given search query in order to construct a collection that contains equal coverage of them. Second, we focus on the diversification of short texts, such as social media posts, for the query processing stage. For both contributions, we apply well-known diversification approaches in the literature and extend them by exploiting the neural language models that are state-of-the-art for several information retrieval and natural language processing tasks. Our experiments, in which we evaluate both approaches with well-crafted experimental setups, show that the diversification paradigm is successful for both the crawling stage and short texts. Moreover, neural language models perform comparable results for the diversification paradigm.
Benzer Tezler
- Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Neural named entity recognition for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde sinir ağı tabanlı varlık ismi tanıma
ONUR GÜNGÖR
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
ÖĞR. GÖR. SUZAN ÜSKÜDARLI
- Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- A semantic sentence similarity estimation approach for the biomedical domain
Biyomedikal alanda anlamsal cümle benzerliği hesaplama yöntemi
GİZEM SOĞANCIOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Almanca ve Türkçede cümle ögeleri. Biçimbilimsel ve sözdizimsel bir karşılaştırma
Satzglieder im Deutschen und im Türkischen. Ein morpho-syntaktischer vergleich
HÜSSAM SERHAT DAŞCI
Yüksek Lisans
Türkçe
2020
Alman Dili ve EdebiyatıAnkara ÜniversitesiBatı Dilleri ve Edebiyatları Ana Bilim Dalı
PROF. DR. DURSUN ZENGİN