A New representation for matching words
Kelime eşleme yöntemi için yeni bir niteleme
- Tez No: 199694
- Danışmanlar: Y.DOÇ.DR. PINAR DUYGULU ŞAHİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: word matching, document retrieval, bag-of-features
- Yıl: 2007
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 96
Özet
üOZETË ü Ë ËşË ËËKELIME ESLEME YONTEMI ICIN YENI BIRşËNITELEMEEsra AtaerBilgisayar Mü hendisliği, Yü ksek Lisansu g uTez Yüneticisi: Assist. Prof. Pınar Duygulu Sahino şTemmuz, 2007Tarihi arşivler dü nyanın pek cok yerinden araştırmacının ilgi alanına girmekte-s u sdir. Fakat, belgelerin elle cevirisi ve dizinlemesi zor bir iş olduğu işin bu arşivlerş s gc skullanılamaz durumdadır. Ayrıca elektronik imgeleme araşları ve imge işlemec steknikleri kü tü phane ve arşivlerin dijital ortama aktarılmasıyla gü n geştikşeuu s u cconem kazanmaktadır. Bu tezde erişim ve dizinlemede kullanılmak uzere ke-ü s ülime imgelerini nitelemek işin dilden bağımsız bir cozü m getirilmektedir. Karak-c g şü uter tanıma teknikleri aşırı onişleme ve ogrenme yünü nden eksiklikler işerirken,s üs üğ ou conerilen yüntem belgeleri kelimelere bülü tleyerek ayırt edici bülgeleri kullanarakü o ou obu kelimeleri nitelemektedir. Nesne ve manzara tasniï¬nde başarı güsteren gürsel-s o oogeler-kü mesi yüntemi kelime eşlemeye uyarlandı. Kıvrım, bağlantı bülgeleriüğ u o s g ove noktalar kelimeyi ayırt etmek işin oenmli gürsel oznitelikler olduğu işin bucü o ü gcbülgeleri tanımlamada başarılı olan ve imge eşlemede sıkşa kullanılan taş nokta-o s s c clar kullanıldı. Bu bülgelerin tespit edilmesinde Gauss Farkı ve Harris-Aï¬ne sezi-ocilerinden yararlanıldı ve tespit edilen bülgeler Scale Invariant Feature Transformo(SIFT) oznitelikleriyle tanımlandı. Her kelime SIFT tanımlayıcılarının vektürü onicemlenmesiyle oluşturulan gürsel ogelerin değişik dağılımlarına güre nitelendis o üğ gs g ove bu niteleme belge erişim ve dizinlemesi işin kullanıldı.s cDeneyler farklı yazı tipi işeren ve ceşitli yazarlarca yazılmış Arapşa, Lat-c şs s cince ve Osmanlıca belgelerde gerşekleştirildi. Veri kü melerinin farklı yazı tipleric s uişermesine ve ceşitli yazarlarca oluşturulmuş olmasına rağmen, sonuşlar onerilenc şs s s g cüüsistemin belge erişimi ve dizinlemede başarılı olduğunu güstermektedir. Onerilens s g oyüntem dilden bağımsız olduğu işin kolayca başka dillere de uyarlanabilir. Sistemo g gc sbelge erişiminde bu alandaki en iyi yüntemlere yakın bir başarım sergilemektedir.s o sBunun yanında onerilen yüntemin anlamsal benzerlikleri bulmada başrılı olmasıü o sbelge dizinleme işin etkili bişimde kulanılabileceğini güstermektedir.c c g oiiiAnahtar süzcükler : kelime eşleme, belge erişimi, gürsel ogeler kü mesi.s s o üğ uou
Özet (Çeviri)
ABSTRACTA NEW REPRESENTATION FOR MATCHING WORDSEsra AtaerM.S. in Computer EngineeringSupervisor: Assist. Prof. Pınar Duygulu SahinşJuly, 2007Large archives of historical documents are challenging to many researchers allover the world. However, these archives remain inaccessible since manual index-ing and transcription of such a huge volume is diï¬cult. In addition, electronicimaging tools and image processing techniques gain importance with the rapidincrease in digitalization of materials in libraries and archives. In this thesis,a language independent method is proposed for representation of word images,which leads to retrieval and indexing of documents. While character recogni-tion methods suï¬er from preprocessing and overtraining, we make use of anothermethod, which is based on extracting words from documents and representingeach word image with the features of invariant regions. The bag-of-words ap-proach, which is shown to be successful to classify objects and scenes, is adaptedfor matching words. Since the curvature or connection points, or the dots areimportant visual features to distinct two words from each other, we make use ofthe salient points which are shown to be successful in representing such distinc-tive areas and heavily used for matching. Diï¬erence of Gaussian (DoG) detector,which is able to ï¬nd scale invariant regions, and Harris Aï¬ne detector, whichdetects aï¬ne invariant regions, are used for detection of such areas and detectedkeypoints are described with Scale Invariant Feature Transform (SIFT) features.Then, each word image is represented by a set of visual terms which are obtainedby vector quantization of SIFT descriptors and similar words are matched basedon the similarity of these representations by using diï¬erent distance measures.These representations are used both for document retrieval and word spotting.The experiments are carried out on Arabic, Latin and Ottoman datasets,which included diï¬erent writing styles and diï¬erent writers. The results show thatthe proposed method is successful on retrieval and indexing of documents even ifwith diï¬erent scripts and diï¬erent writers and since it is language independent,iiiit can be easily adapted to other languages as well. Retrieval performance of thesystem is comparable to the state of the art methods in this ï¬eld. In addition,the system is succesfull on capturing semantic similarities, which is useful forindexing, and it does not include any supervising step.
Benzer Tezler
- Pose sentences: A new representation for understanding human actions
Poz cümleleri: İnsan aktivitelerini anlamak için yeni bir tanım
KARDELEN HATUN
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. PINAR DUYGULU
- Direct pore-based identification for fingerprint matching process
Parmak izi kimliklendirme sürecincde por temellieşleştirme sistemi
VEDAT DELİCAN
Doktora
İngilizce
2023
Adli Tıpİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Özgün paragraf tabanlı çıkarım tekniği kullanarak otomatik çoklu doküman özetleme
Automatic multi-document summarization using original paragraph based extraction technique
METİN TURAN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. AHMET COŞKUN SÖNMEZ
- Katlıdizeylerin çokdeğişkenliliği yükseltilmiş çarpımlar üçköşegencil gösterilim yoluyla ayrıştırımı: Kavramcıl taban ve uygulayışlar
Tridiagonal folmat enhanced multivariance products representation: Conceptual background and applications
ZEYNEP GÜNDOĞAR
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. METİN DEMİRALP
- İmalat stratejileri ve imalat teknolojisi seçiminde uzman sistem yaklaşımı
Manufacturing strategies and an expert system approach to selecting manufacturing technology
İBRAHİM ÇİL
Doktora
Türkçe
1997
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. RAMAZAN EVREN