Geri Dön

Exploiting word and sentence embeddings for diversification in crawling and ranking

Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma

  1. Tez No: 764531
  2. Yazar: CAN DURAN ÜNALDI
  3. Danışmanlar: DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 120

Özet

Web ve mikroblog sitelerinin hacmindeki artışın yarattığı çok sayıda kopya veya kopyaya yakın içerik çeşitlendirme paradigmasını ortaya çıkardı. Tipik bir arama sisteminde üç ana bileşen bulunmaktadır, bunlar tarayıcı, endeksleyici ve sorgu işleyicisidir. Çoğu çeşitlendirme yöntemi sorgu işleme bileşenini hedeflerken, bu çalışmada çeşitlendirme paradigmasını hem tarayıcı hem de sorgu işleyiciye uygulamak hedeflenmektedir. Öncelikle, sorgunun alt anlamlarını kullanarak alt anlamları dengeli bir dağılımda içeren bir koleksiyon oluşturmayı amaçlayan çeşitlendirmeye duyarlı odaklı tarayıcı geliştirildi. Sonrasında, sorgu işleme aşaması için sosyal medya içerikleri gibi kısa metinleri çeşitlendirmeye odaklanıldı. Her iki katkıda da, literatürde tanınmış çeşitlendirme yaklaşımları uygulandı ve bir çok bilgi getirimi ve doğal dil işleme yönteminde kullanılmış modern sinirsel dil modelleri kullanılarak bu yaklaşımlar genişletildi. Her iki yaklaşım da iyi hazırlanmış deney ortamlarında denendiğinde çeşitlendirme paradigmasının hem tarama aşamasında hem de kısa metinlerde başarılı olduğu görüldü. Ayrıca, çeşitlendirme paradigması için sinirsel dil modellerinin kıyaslanabilir sonuçlar aldığı görüldü.

Özet (Çeviri)

The increase in the volume of the Web and Microblogging sites caused copious amounts of duplicate or near duplicate content which emerged the diversification paradigm. On a typical search system, there are three main components, namely, a crawler, an indexer and a query processor. While most diversification approaches aim at the query processing stage of the search system, in this work, we aim to apply the diversification paradigm to both crawling and query processing stages. First, we introduce a diversification-aware focused crawler, which considers all the aspects of a given search query in order to construct a collection that contains equal coverage of them. Second, we focus on the diversification of short texts, such as social media posts, for the query processing stage. For both contributions, we apply well-known diversification approaches in the literature and extend them by exploiting the neural language models that are state-of-the-art for several information retrieval and natural language processing tasks. Our experiments, in which we evaluate both approaches with well-crafted experimental setups, show that the diversification paradigm is successful for both the crawling stage and short texts. Moreover, neural language models perform comparable results for the diversification paradigm.

Benzer Tezler

  1. Building of Turkish propbank and semantic role labeling of Turkish

    Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi

    GÖZDE GÜL ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  2. Neural named entity recognition for morphologically rich languages

    Biçimbilimsel açıdan zengin dillerde sinir ağı tabanlı varlık ismi tanıma

    ONUR GÜNGÖR

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

    ÖĞR. GÖR. SUZAN ÜSKÜDARLI

  3. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. A semantic sentence similarity estimation approach for the biomedical domain

    Biyomedikal alanda anlamsal cümle benzerliği hesaplama yöntemi

    GİZEM SOĞANCIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  5. Almanca ve Türkçede cümle ögeleri. Biçimbilimsel ve sözdizimsel bir karşılaştırma

    Satzglieder im Deutschen und im Türkischen. Ein morpho-syntaktischer vergleich

    HÜSSAM SERHAT DAŞCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Alman Dili ve EdebiyatıAnkara Üniversitesi

    Batı Dilleri ve Edebiyatları Ana Bilim Dalı

    PROF. DR. DURSUN ZENGİN