Developing tools to support the search needs of news readers and news writers
Haber okuyucuları ve yazarlarının haber arama ihtiyaçları için araçlar geliştirilmesi
- Tez No: 711311
- Danışmanlar: DR. ÖĞR. ÜYESİ REYYAN YENİTERZİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Çevrimiçi haberlerdeki dijitalleşme, haber yazma endüstrisini hem değiştiriyor hem de demokratikleştiriyor. Son yıllarda haber kaynaklarının sayısındaki büyük artış, ilgili haber makalelerini veya arka plan bilgisi sağlayan ve okuyucunun deneyimini geliştiren varlıkları birbirine bağlayan otomatik yöntemler üzerinde araştırma yapılmasını gerektirdi. Bu çalışmada, haber makaleleri bağlamında üç farklı görevi ele alıyoruz: Vikifikasyon, Varlık Sıralama ve Geçmiş Bağlantısı. Bu görevler üzerinde yapılan çalışma, News Track of Text Retrieval Conference (TREC) görevleriyle uyumludur. Vikifikasyonda, maddelerde adı geçen varlıkların bir listesini tespit eder, bunları ilgili Vikipedi girişlerine bağlar ve varlık listesini maddeyle alakalarına göre sıralarız. Bağımsız Varlık Sıralaması görevi, yalnızca listede belirtilen varlıkların verildiği Vikifikasyonun son sıralama adımı ile ilgilidir. Gemiş Bağlantısında ise görev, bir sorgu haber makalesi için verilen ilgili makalelerin bir listesini almak ve sıralamaktır. Bu görevler için önerilen çözümlerimiz, derin modellemeye ve benzerlik ve alaka düzeyini tahmin etmek için vektör temsillerini kullanmaya yöneliktir. Varlık Sıralaması için, Doc2Vec kullanarak haber makalelerini ve varlıkları kodlarız, ardından varlıkları sıralamak için çift arasındaki yakınlığı kullanırız. Vikifikasyona gelince, varlık ifadelerini tespit etmek ve bahsedenleri ve varlıkları vektör temsillerine kodlamak için dönüştürücü tabanlı mimariler kullanıyoruz. Bu vektörler, varlığı bağlayan sistemin bir parçası olarak aday bulma ve sıralama için kullanılır. Geçmiş Bağlantısında, haber makalelerini kodlamak ve makaleler arasındaki alaka düzeyi sıralaması için ince ayar yapmak için yine dönüştürücü tabanlı bir dil modeli kullanıyoruz. Değerlendirme sırasında, derin karmaşık mimarileri kullanmanın getirdiği kaliteyi veya performans artışını analiz etmek için yaklaşımlarımızı klasik bilgi erişim sistemleriyle karşılaştırıyoruz. Varlık bağlama ortamında alaka düzeyini ölçmek için Doc2Vec ve Kosinüs benzerliğini kullanmanın yüksek performans sağladığı görülmüştür. Vikifikasyon'da, adayların belirlenmesi sırasında bağlamsal kodlamanın ile yoğun vektör araması yapmak, diğer yöntemlerle benzer performans göstermiştir. Bununla birlikte, aday varlık sıralaması için bağlamsal kodlamanın kullanılması, Vikifikasyon performansını önemli ölçüde artırır. Geçmiş Bağlantısında kullanılan dönüştürücü tabanlı yeniden sıralayıcı tam metin arama yöntemini iyileştirmemiştir, ancak ince ayar için daha fazla veri sağlandığında sonuçlarda umut verici gelişmeler gözlenmiştir.
Özet (Çeviri)
The ongoing digitization of online news has changed and democratized the industry of news writing. The huge increase in the number of news sources has called for research on automated methods that link relevant news articles or entities that provide background information and enhance the reader's experience. In this work, we tackle three different tasks in the context of news articles: Wikification, Entity Ranking, and Background Linking. The work done on these tasks is in alignment with the tasks in News Track of Text REtrieval Conference (TREC). In Wikification, we detect a list of mentioned entities in articles, link them to their corresponding Wikipedia entry and rank the list of entities in terms of relevance to the article. Standalone Entity Ranking task is only concerned with the final ranking step of Wikification where the list mentioned entities are given. As for Background Linking, the task is to retrieve and rank a list of relevant articles given a query news article. Our proposed solutions for these tasks are oriented towards deep modelling and using vector representations to estimate similarity and relevance. For Entity Ranking, we encode news articles and entities using Doc2Vec then use proximity between the pair to rank entities. As for Wikification, we use transformer-based architectures for detecting entity mentions and encoding mentions and entities into vector representations. These vectors are used for candidate retrieval and ranking as part of the entity linking pipeline. In Background Linking, we again use a transformer-based language model to encode news articles and fine-tune it for relevance ranking between articles. For evaluation, we compare our approaches to classic information retrieval systems to analyze the quality or increase in performance brought by using deep complex architectures. Using Doc2Vec and Cosine similarity to measure relevance in a setting of perfect entity linking yields high performances. In Wikification, encoding mentions and performing dense vector search for candidate retrieval performs on-par with baseline. However, using contextual encoding for candidate entity ranking significantly improves the Wikification performance. The transformer-based re-ranker used in Background Linking does not improve over full-text search baseline but shows promising improvements in results when provided with more data for fine-tuning.
Benzer Tezler
- Sağlık hizmeti tasarımında sezaryen doğum deneyimi üzerinden bütüncül yolculuk haritalama yöntemi önerisi
Suggestion for a holistic journey mapping method based on the experience of caesarean section in healthcare service design
HATİCE KÜBRA YILDIZ
Doktora
Türkçe
2024
Endüstri Ürünleri Tasarımıİstanbul Teknik ÜniversitesiEndüstriyel Tasarım Ana Bilim Dalı
PROF. DR. GÜLNAME TURAN
- Sosyal girişimcilik projelerinde tasarım girdisi: Türkiye'deki örnekler üzerinden bir inceleme
Design input in social entrepreneurship projects: A study on examples in Turkey
SEVCAN EKMEKÇİOĞLU
Yüksek Lisans
Türkçe
2018
Endüstri Ürünleri Tasarımıİstanbul Teknik ÜniversitesiEndüstri Ürünleri Tasarımı Ana Bilim Dalı
PROF. DR. ŞEBNEM TİMUR ÖĞÜT
- İnsan kaynakları yazılım programı seçimine bulanık ortamda bütünleşik bir yaklaşım
An integrated approach to human resources software program selection in a fuzzy environment
EZGİ KÖY
Yüksek Lisans
Türkçe
2019
Bilim ve Teknolojiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
- Mimari tasarımda öncül analizine yönelik bir araç önerisi
Precedent analysis tool proposal for architectural design
HATİCE MELİKE ÖZBEK
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. YÜKSEL DEMİR
- Yapı elemanı tasarımında malzeme seçimi aracı (YETMSA)
Material selection tool in building element design
MİNE KOYAZ
Yüksek Lisans
Türkçe
2016
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
YRD. DOÇ. DR. MEHMET CEM ALTUN