Near-duplicate news detection using named entities

Adlandırılmış nesneler kullanarak yaklaşık-aynı haberleri saptama

PDF İndir

Tez No: 246581
Yazar: ERKAN UYAR
Danışmanlar: PROF. DR. FAZLI CAN, YRD. DOÇ. DR. SEYİT KOÇBERBER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 87

Özet

Web dokümanlarının sayısı on yıldan fazla bir süredir katlanarak artmaktadır. Benzer şekilde, Web ortamında kısmen veya tamamen eşlenik dokümanlar sıklıkla görülmektedir. İnternet teknolojisindeki ilerlemeler beraberinde haber ajanslarının sayısını artırmıştır. İnsanlar haberleri farklı kaynaklardaki dokümanları bir araya toplayan haber portalları üzerinden okuma eğilimindedirler. Bu portallarda eşlenik veya yaklaşık aynı haberlerin bulunması yaygın bir problemdir. Eşlenik haberler fazlalık oluşturur ve çok az kullanıcı aynı bilgileri içeren haberleri okumak isteyebilir. Eşlenik dokümanlar arama motorlarının etkinliğini ve verimliliğini düşürmektedir. Bu tezde yeni bir yaklaşık aynı haberleri saptama algoritması olan Tweezer'ı önerip, değerlendirdik. Bu algoritmada adlandırılmış nesnelere karşılık gelen kelimeler ile bu kelimelerin öncesinde gelen ve onları izleyen kelimeler dokümanın imzasının oluşturulmasında kullanılmaktadır. Aynı imzayı paylaşan dokümanlar yaklaşık-aynı olarak kabul edilmektedir. Adlandırılmış nesnelerin saptanması için Türkçe Adlandırılmış Nesne Tanıyıcı, TuNER, yöntemi önerilmiştir. Tweezer'ın değerlendirmesi için Bilkent Haber Portalı'ndan sağlanan haberler kullanılarak hazırlanan doküman seti kullanılmıştır. Deneylerde Tweezer en gelişkin eşlenik saptama algoritmalarından birisi olan ve kelimelerin Ters Doküman Frekansı, IDF, değerlerini kullanarak doküman imzalarını çıkaran I-Match ile karşılaştırılmıştır. Yanlış ikaz ve kaçırma oranı olasılıklarını birleştiren bir maliyet fonksiyonu, ve anma ve duyarlılıgı birleştiren F-ölçütü kullanılarak Tweezer'ın I-Match'ten istatiksel olarak önemli ölçüde daha iyi olduğu deneysel şekilde gösterilmiştir. Bunun yanında Tweezer, I-Match'ten en az %7 daha hızlıdır.

Özet (Çeviri)

The number of web documents has been increasing in an exponential manner for more than a decade. In a similar way, partially or completely duplicate documents appear frequently on the Web. Advances in the Internet technologies have increased the number of news agencies. People tend to read news from news portals that aggregate documents from different sources. The existence of duplicate or near-duplicate news in these portals is a common problem. Duplicate documents create redundancy and only a few users may want to read news containing identical information. Duplicate documents decrease the efficiency and effectiveness of search engines. In this thesis, we propose and evaluate a new near-duplicate news detection algorithm: Tweezer. In this algorithm, named entities and the words that appear before and after them are used to create document signatures. Documents sharing the same signatures are considered as a near-duplicate. For named entity detection, we introduce a method called Turkish Named Entity Recognizer, TuNER. For the evaluation of Tweezer, a document collection is created using news articles obtained from Bilkent News Portal. In the experiments, Tweezer is compared with I-Match, which is a state-of-the-art near-duplicate detection algorithm that creates document signatures using Inverse Document Frequency, IDF, values of terms. It is experimentally shown that the effectiveness of Tweezer is statistically significantly better than that of I-Match by using a cost function that combines false alarm and miss rate probabilities, and the F-measure that combines precision and recall. Furthermore, Tweezer is at least 7% faster than I-Match.

Benzer Tezler

Tez No
297747
CoDet: A new algorithm for containment and near duplicate detection in text corpora
CoDet: Yazılı dokümanlarda kapsama ve benzerlik tespiti için yeni bir algoritma
EMRE VAROL
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. CEVDET AYKANAT
Tez No
948111
Sentiment-driven forecasting of short-term asset price directions using large language models
Büyük dil modelleri kullanarak varlık fiyatlarının kısa vadeli yönlerinin duygu odaklı tahmini
AHMET BERKAY GÜLTEKİN
Yüksek Lisans
İngilizce
2025
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
Tez No
427895
Verimli neredeyse özdeş erişimi için ayırıcı öznitelik seçimi
Distinctive feature selection for efficient near-duplicate retrieval
BURAK YILDIZ
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH DEMİRCİ
Tez No
764531
Exploiting word and sentence embeddings for diversification in crawling and ranking
Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma
CAN DURAN ÜNALDI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
Tez No
673065
Deduplication of hotels by using active learning
Aktif öğrenme kullanarak otellerin tekilleştirilmesi
MEHMET RIDVAN CİĞA
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARKAN AYDIN

Geri Dön