Geri Dön

CoDet: A new algorithm for containment and near duplicate detection in text corpora

CoDet: Yazılı dokümanlarda kapsama ve benzerlik tespiti için yeni bir algoritma

  1. Tez No: 297747
  2. Yazar: EMRE VAROL
  3. Danışmanlar: PROF. DR. CEVDET AYKANAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 52

Özet

Bu tezde, birbirine benzer doküman tespitinin genelleştirilmiş versiyonu olan bir dokümanıniçerdiği bilgilerin başka bir doküman tarafından içerilip içerilmediğini ortaya koyan kapsamatespiti konusu incelenmiştir. Yazılı dokümanlarda dokümanların birbirini kapsaması üç farklışekilde karşımıza çıkmaktadır: ilk durum dokümanların tamamen aynı olması, ikinci durumdokumanların oldukça benzer olması, üçüncü ve ilk iki durumun daha geniş kapsamlı haliise bir dokumanın diğerini içermesi.Kapsama tespiti için CoDet ismini verdiğimiz özelliklepeşisıra gelmekte olan haberler için kullanışlı yeni bir algoritma önermekteyiz. Ayrıcahavuzlama tekniği vasıtasıyla sınırlı insan yardımı kullanarak algoritmaların etkinliğini veverimliliğini güvenilir bir şekilde ölçmemizi sağlayan bir test koleksiyonu oluşturduk.CoDet'in performansını oldukça benzer doküman tespitinde kullanılan ve alanındabaşarılı kabul edilen dört farklı algoritma (DSC, full fingerprinting, I-Match ve SimHash)ile karşılaştırdık. Deneysel çalışmalarımızdan edindiğimiz bulgulara göre CoDet genelliklealternatif algoritmalardan daha iyi sonuç vermekte ve yazılı dokümanlar üzerindekapsama tespiti konusunda kaydadeğer sonuçlar üretmektedir.

Özet (Çeviri)

In this thesis, we investigate containment detection, which is a generalized versionof the well known near-duplicate detection problem concerning whether adocument is a subset of another document. In text-based applications, there arethree ways of observing document containment: exact-duplicates, near-duplicates,or containments, where first two are the special cases of containment. To detectcontainments, we introduce CoDet, which is a novel algorithm that focusesparticularly on containment problem. We also construct a test collection using anovel pooling technique, which enables us to make reliable judgments for the relativeeffectiveness of algorithms using limited human assessments. We compare itsperformance with four well-known near duplicate detection methods (DSC, fullfingerprinting, I-Match, and SimHash) that are adapted to containment detection.Our algorithm is especially suitable for streaming news. It is also expandable todifferent domains. Experimental results show that CoDet mostly outperforms theother algorithms and produces remarkable results in detection of containments intext corpora.

Benzer Tezler

  1. Yatay yükler etkisindeki dolgulu betonarme düzlem çerçevelerin malzeme bakımından non-lineer analizi

    Analysis of infilled planar RC frames in termes of nonlinearity material under lateral loads

    MUHİDDİN BAĞCI

    Doktora

    Türkçe

    Türkçe

    2003

    İnşaat MühendisliğiBalıkesir Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞERİF SAYLAN

  2. Simulating the expansion process of intumescent coating fire protection

    Başlık çevirisi yok

    BURAK KAAN ÇIRPICI

    Doktora

    İngilizce

    İngilizce

    2015

    İnşaat MühendisliğiThe University of Manchester

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. YONG C. WANG

    DR. BENEDICT ROGERS

  3. Araç rotalama problemlerinin çözümünde yeni bir sezgisel algoritma: Yolcu alma algoritması ve personel servis hizmetlerine uygulanması

    A New heuristic algorithm-demand partitioning algorithm-for vehicle routing problems and its application to school services

    İSMAİL TOP

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    Savunma ve Savunma TeknolojileriKara Harp Okulu Komutanlığı

    Harekat Araştırması Ana Bilim Dalı

    DOÇ. DR. CEVRİYE GENCER

  4. Generatörleri motor olarak çalışmaya ve aşırı yüklenmeye karşı korumak amacıyla tasarlanan yeni bir digital röle algoritması

    A New digital protection algorithm for generators aganist motoring and overload condition

    İBRAHİM KARAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2000

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    DOÇ.DR. ÖMER USTA

  5. A new globally convergent computational spectral conjugate gradient algorithm for solving unconstraint nonlinear test-problems

    Kısıtsız doğrusal olmayan test problemlerin çözümü için yeni küresel yakınsak hesaplamalı spektral eşlenik gradyan algoritması

    ALI ABBAS YOUNIS AL ARBO

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assist. Prof. Dr. AİŞE ZÜLAL ŞEVKLİ