CoDet: A new algorithm for containment and near duplicate detection in text corpora
CoDet: Yazılı dokümanlarda kapsama ve benzerlik tespiti için yeni bir algoritma
- Tez No: 297747
- Danışmanlar: PROF. DR. CEVDET AYKANAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2012
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 52
Özet
Bu tezde, birbirine benzer doküman tespitinin genelleştirilmiş versiyonu olan bir dokümanıniçerdiği bilgilerin başka bir doküman tarafından içerilip içerilmediğini ortaya koyan kapsamatespiti konusu incelenmiştir. Yazılı dokümanlarda dokümanların birbirini kapsaması üç farklışekilde karşımıza çıkmaktadır: ilk durum dokümanların tamamen aynı olması, ikinci durumdokumanların oldukça benzer olması, üçüncü ve ilk iki durumun daha geniş kapsamlı haliise bir dokumanın diğerini içermesi.Kapsama tespiti için CoDet ismini verdiğimiz özelliklepeşisıra gelmekte olan haberler için kullanışlı yeni bir algoritma önermekteyiz. Ayrıcahavuzlama tekniği vasıtasıyla sınırlı insan yardımı kullanarak algoritmaların etkinliğini veverimliliğini güvenilir bir şekilde ölçmemizi sağlayan bir test koleksiyonu oluşturduk.CoDet'in performansını oldukça benzer doküman tespitinde kullanılan ve alanındabaşarılı kabul edilen dört farklı algoritma (DSC, full fingerprinting, I-Match ve SimHash)ile karşılaştırdık. Deneysel çalışmalarımızdan edindiğimiz bulgulara göre CoDet genelliklealternatif algoritmalardan daha iyi sonuç vermekte ve yazılı dokümanlar üzerindekapsama tespiti konusunda kaydadeğer sonuçlar üretmektedir.
Özet (Çeviri)
In this thesis, we investigate containment detection, which is a generalized versionof the well known near-duplicate detection problem concerning whether adocument is a subset of another document. In text-based applications, there arethree ways of observing document containment: exact-duplicates, near-duplicates,or containments, where first two are the special cases of containment. To detectcontainments, we introduce CoDet, which is a novel algorithm that focusesparticularly on containment problem. We also construct a test collection using anovel pooling technique, which enables us to make reliable judgments for the relativeeffectiveness of algorithms using limited human assessments. We compare itsperformance with four well-known near duplicate detection methods (DSC, fullfingerprinting, I-Match, and SimHash) that are adapted to containment detection.Our algorithm is especially suitable for streaming news. It is also expandable todifferent domains. Experimental results show that CoDet mostly outperforms theother algorithms and produces remarkable results in detection of containments intext corpora.
Benzer Tezler
- Yatay yükler etkisindeki dolgulu betonarme düzlem çerçevelerin malzeme bakımından non-lineer analizi
Analysis of infilled planar RC frames in termes of nonlinearity material under lateral loads
MUHİDDİN BAĞCI
Doktora
Türkçe
2003
İnşaat MühendisliğiBalıkesir Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ŞERİF SAYLAN
- Simulating the expansion process of intumescent coating fire protection
Başlık çevirisi yok
BURAK KAAN ÇIRPICI
Doktora
İngilizce
2015
İnşaat MühendisliğiThe University of Manchesterİnşaat Mühendisliği Ana Bilim Dalı
PROF. YONG C. WANG
DR. BENEDICT ROGERS
- Araç rotalama problemlerinin çözümünde yeni bir sezgisel algoritma: Yolcu alma algoritması ve personel servis hizmetlerine uygulanması
A New heuristic algorithm-demand partitioning algorithm-for vehicle routing problems and its application to school services
İSMAİL TOP
Yüksek Lisans
Türkçe
2004
Savunma ve Savunma TeknolojileriKara Harp Okulu KomutanlığıHarekat Araştırması Ana Bilim Dalı
DOÇ. DR. CEVRİYE GENCER
- Generatörleri motor olarak çalışmaya ve aşırı yüklenmeye karşı korumak amacıyla tasarlanan yeni bir digital röle algoritması
A New digital protection algorithm for generators aganist motoring and overload condition
İBRAHİM KARAŞ
Yüksek Lisans
Türkçe
2000
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. ÖMER USTA
- A new globally convergent computational spectral conjugate gradient algorithm for solving unconstraint nonlinear test-problems
Kısıtsız doğrusal olmayan test problemlerin çözümü için yeni küresel yakınsak hesaplamalı spektral eşlenik gradyan algoritması
ALI ABBAS YOUNIS AL ARBO
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. AİŞE ZÜLAL ŞEVKLİ