Geri Dön

Near-duplicate news detection using named entities

Adlandırılmış nesneler kullanarak yaklaşık-aynı haberleri saptama

  1. Tez No: 246581
  2. Yazar: ERKAN UYAR
  3. Danışmanlar: PROF. DR. FAZLI CAN, YRD. DOÇ. DR. SEYİT KOÇBERBER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 87

Özet

Web dokümanlarının sayısı on yıldan fazla bir süredir katlanarak artmaktadır. Benzer şekilde, Web ortamında kısmen veya tamamen eşlenik dokümanlar sıklıkla görülmektedir. İnternet teknolojisindeki ilerlemeler beraberinde haber ajanslarının sayısını artırmıştır. İnsanlar haberleri farklı kaynaklardaki dokümanları bir araya toplayan haber portalları üzerinden okuma eğilimindedirler. Bu portallarda eşlenik veya yaklaşık aynı haberlerin bulunması yaygın bir problemdir. Eşlenik haberler fazlalık oluşturur ve çok az kullanıcı aynı bilgileri içeren haberleri okumak isteyebilir. Eşlenik dokümanlar arama motorlarının etkinliğini ve verimliliğini düşürmektedir. Bu tezde yeni bir yaklaşık aynı haberleri saptama algoritması olan Tweezer'ı önerip, değerlendirdik. Bu algoritmada adlandırılmış nesnelere karşılık gelen kelimeler ile bu kelimelerin öncesinde gelen ve onları izleyen kelimeler dokümanın imzasının oluşturulmasında kullanılmaktadır. Aynı imzayı paylaşan dokümanlar yaklaşık-aynı olarak kabul edilmektedir. Adlandırılmış nesnelerin saptanması için Türkçe Adlandırılmış Nesne Tanıyıcı, TuNER, yöntemi önerilmiştir. Tweezer'ın değerlendirmesi için Bilkent Haber Portalı'ndan sağlanan haberler kullanılarak hazırlanan doküman seti kullanılmıştır. Deneylerde Tweezer en gelişkin eşlenik saptama algoritmalarından birisi olan ve kelimelerin Ters Doküman Frekansı, IDF, değerlerini kullanarak doküman imzalarını çıkaran I-Match ile karşılaştırılmıştır. Yanlış ikaz ve kaçırma oranı olasılıklarını birleştiren bir maliyet fonksiyonu, ve anma ve duyarlılıgı birleştiren F-ölçütü kullanılarak Tweezer'ın I-Match'ten istatiksel olarak önemli ölçüde daha iyi olduğu deneysel şekilde gösterilmiştir. Bunun yanında Tweezer, I-Match'ten en az %7 daha hızlıdır.

Özet (Çeviri)

The number of web documents has been increasing in an exponential manner for more than a decade. In a similar way, partially or completely duplicate documents appear frequently on the Web. Advances in the Internet technologies have increased the number of news agencies. People tend to read news from news portals that aggregate documents from different sources. The existence of duplicate or near-duplicate news in these portals is a common problem. Duplicate documents create redundancy and only a few users may want to read news containing identical information. Duplicate documents decrease the efficiency and effectiveness of search engines. In this thesis, we propose and evaluate a new near-duplicate news detection algorithm: Tweezer. In this algorithm, named entities and the words that appear before and after them are used to create document signatures. Documents sharing the same signatures are considered as a near-duplicate. For named entity detection, we introduce a method called Turkish Named Entity Recognizer, TuNER. For the evaluation of Tweezer, a document collection is created using news articles obtained from Bilkent News Portal. In the experiments, Tweezer is compared with I-Match, which is a state-of-the-art near-duplicate detection algorithm that creates document signatures using Inverse Document Frequency, IDF, values of terms. It is experimentally shown that the effectiveness of Tweezer is statistically significantly better than that of I-Match by using a cost function that combines false alarm and miss rate probabilities, and the F-measure that combines precision and recall. Furthermore, Tweezer is at least 7% faster than I-Match.

Benzer Tezler

  1. CoDet: A new algorithm for containment and near duplicate detection in text corpora

    CoDet: Yazılı dokümanlarda kapsama ve benzerlik tespiti için yeni bir algoritma

    EMRE VAROL

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. CEVDET AYKANAT

  2. Verimli neredeyse özdeş erişimi için ayırıcı öznitelik seçimi

    Distinctive feature selection for efficient near-duplicate retrieval

    BURAK YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED FATİH DEMİRCİ

  3. Exploiting word and sentence embeddings for diversification in crawling and ranking

    Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma

    CAN DURAN ÜNALDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE

  4. Deduplication of hotels by using active learning

    Aktif öğrenme kullanarak otellerin tekilleştirilmesi

    MEHMET RIDVAN CİĞA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TARKAN AYDIN

  5. Yerel öznitelikler kullanarak görüntü indeksleme ve eşleme

    Image indexing and matching using local features

    ONUR ÇALIKUŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL KALYONCU