Near-duplicate news detection using named entities
Adlandırılmış nesneler kullanarak yaklaşık-aynı haberleri saptama
- Tez No: 246581
- Danışmanlar: PROF. DR. FAZLI CAN, YRD. DOÇ. DR. SEYİT KOÇBERBER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 87
Özet
Web dokümanlarının sayısı on yıldan fazla bir süredir katlanarak artmaktadır. Benzer şekilde, Web ortamında kısmen veya tamamen eşlenik dokümanlar sıklıkla görülmektedir. İnternet teknolojisindeki ilerlemeler beraberinde haber ajanslarının sayısını artırmıştır. İnsanlar haberleri farklı kaynaklardaki dokümanları bir araya toplayan haber portalları üzerinden okuma eğilimindedirler. Bu portallarda eşlenik veya yaklaşık aynı haberlerin bulunması yaygın bir problemdir. Eşlenik haberler fazlalık oluşturur ve çok az kullanıcı aynı bilgileri içeren haberleri okumak isteyebilir. Eşlenik dokümanlar arama motorlarının etkinliğini ve verimliliğini düşürmektedir. Bu tezde yeni bir yaklaşık aynı haberleri saptama algoritması olan Tweezer'ı önerip, değerlendirdik. Bu algoritmada adlandırılmış nesnelere karşılık gelen kelimeler ile bu kelimelerin öncesinde gelen ve onları izleyen kelimeler dokümanın imzasının oluşturulmasında kullanılmaktadır. Aynı imzayı paylaşan dokümanlar yaklaşık-aynı olarak kabul edilmektedir. Adlandırılmış nesnelerin saptanması için Türkçe Adlandırılmış Nesne Tanıyıcı, TuNER, yöntemi önerilmiştir. Tweezer'ın değerlendirmesi için Bilkent Haber Portalı'ndan sağlanan haberler kullanılarak hazırlanan doküman seti kullanılmıştır. Deneylerde Tweezer en gelişkin eşlenik saptama algoritmalarından birisi olan ve kelimelerin Ters Doküman Frekansı, IDF, değerlerini kullanarak doküman imzalarını çıkaran I-Match ile karşılaştırılmıştır. Yanlış ikaz ve kaçırma oranı olasılıklarını birleştiren bir maliyet fonksiyonu, ve anma ve duyarlılıgı birleştiren F-ölçütü kullanılarak Tweezer'ın I-Match'ten istatiksel olarak önemli ölçüde daha iyi olduğu deneysel şekilde gösterilmiştir. Bunun yanında Tweezer, I-Match'ten en az %7 daha hızlıdır.
Özet (Çeviri)
The number of web documents has been increasing in an exponential manner for more than a decade. In a similar way, partially or completely duplicate documents appear frequently on the Web. Advances in the Internet technologies have increased the number of news agencies. People tend to read news from news portals that aggregate documents from different sources. The existence of duplicate or near-duplicate news in these portals is a common problem. Duplicate documents create redundancy and only a few users may want to read news containing identical information. Duplicate documents decrease the efficiency and effectiveness of search engines. In this thesis, we propose and evaluate a new near-duplicate news detection algorithm: Tweezer. In this algorithm, named entities and the words that appear before and after them are used to create document signatures. Documents sharing the same signatures are considered as a near-duplicate. For named entity detection, we introduce a method called Turkish Named Entity Recognizer, TuNER. For the evaluation of Tweezer, a document collection is created using news articles obtained from Bilkent News Portal. In the experiments, Tweezer is compared with I-Match, which is a state-of-the-art near-duplicate detection algorithm that creates document signatures using Inverse Document Frequency, IDF, values of terms. It is experimentally shown that the effectiveness of Tweezer is statistically significantly better than that of I-Match by using a cost function that combines false alarm and miss rate probabilities, and the F-measure that combines precision and recall. Furthermore, Tweezer is at least 7% faster than I-Match.
Benzer Tezler
- CoDet: A new algorithm for containment and near duplicate detection in text corpora
CoDet: Yazılı dokümanlarda kapsama ve benzerlik tespiti için yeni bir algoritma
EMRE VAROL
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. CEVDET AYKANAT
- Verimli neredeyse özdeş erişimi için ayırıcı öznitelik seçimi
Distinctive feature selection for efficient near-duplicate retrieval
BURAK YILDIZ
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH DEMİRCİ
- Exploiting word and sentence embeddings for diversification in crawling and ranking
Tarama ve sıralamada çeşitlendirme amacıyla kelime ve cümle vektörlerinden yararlanma
CAN DURAN ÜNALDI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
- Deduplication of hotels by using active learning
Aktif öğrenme kullanarak otellerin tekilleştirilmesi
MEHMET RIDVAN CİĞA
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARKAN AYDIN
- Yerel öznitelikler kullanarak görüntü indeksleme ve eşleme
Image indexing and matching using local features
ONUR ÇALIKUŞ
Yüksek Lisans
Türkçe
2016
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU