Geri Dön

A New representation for matching words

Kelime eşleme yöntemi için yeni bir niteleme

  1. Tez No: 199694
  2. Yazar: ESRA ATAER
  3. Danışmanlar: Y.DOÇ.DR. PINAR DUYGULU ŞAHİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: word matching, document retrieval, bag-of-features
  7. Yıl: 2007
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 96

Özet

üOZET˙ ü ˙ ˙şË™ ˙˙KELIME ESLEME YONTEMI ICIN YENI BIRşË™NITELEMEEsra AtaerBilgisayar Mü hendisliği, Yü ksek Lisansu g uTez Yüneticisi: Assist. Prof. Pınar Duygulu Sahino şTemmuz, 2007Tarihi arşivler dü nyanın pek cok yerinden araştırmacının ilgi alanına girmekte-s u sdir. Fakat, belgelerin elle cevirisi ve dizinlemesi zor bir iş olduğu işin bu arşivlerş s gc skullanılamaz durumdadır. Ayrıca elektronik imgeleme araşları ve imge işlemec steknikleri kü tü phane ve arşivlerin dijital ortama aktarılmasıyla gü n geştikşeuu s u cconem kazanmaktadır. Bu tezde erişim ve dizinlemede kullanılmak uzere ke-ü s ülime imgelerini nitelemek işin dilden bağımsız bir cozü m getirilmektedir. Karak-c g şü uter tanıma teknikleri aşırı onişleme ve ogrenme yünü nden eksiklikler işerirken,s üs üğ ou conerilen yüntem belgeleri kelimelere bülü tleyerek ayırt edici bülgeleri kullanarakü o ou obu kelimeleri nitelemektedir. Nesne ve manzara tasnifinde başarı güsteren gürsel-s o oogeler-kü mesi yüntemi kelime eşlemeye uyarlandı. Kıvrım, bağlantı bülgeleriüğ u o s g ove noktalar kelimeyi ayırt etmek işin oenmli gürsel oznitelikler olduğu işin bucü o ü gcbülgeleri tanımlamada başarılı olan ve imge eşlemede sıkşa kullanılan taş nokta-o s s c clar kullanıldı. Bu bülgelerin tespit edilmesinde Gauss Farkı ve Harris-Affine sezi-ocilerinden yararlanıldı ve tespit edilen bülgeler Scale Invariant Feature Transformo(SIFT) oznitelikleriyle tanımlandı. Her kelime SIFT tanımlayıcılarının vektürü onicemlenmesiyle oluşturulan gürsel ogelerin değişik dağılımlarına güre nitelendis o üğ gs g ove bu niteleme belge erişim ve dizinlemesi işin kullanıldı.s cDeneyler farklı yazı tipi işeren ve ceşitli yazarlarca yazılmış Arapşa, Lat-c şs s cince ve Osmanlıca belgelerde gerşekleştirildi. Veri kü melerinin farklı yazı tipleric s uişermesine ve ceşitli yazarlarca oluşturulmuş olmasına rağmen, sonuşlar onerilenc şs s s g cüüsistemin belge erişimi ve dizinlemede başarılı olduğunu güstermektedir. Onerilens s g oyüntem dilden bağımsız olduğu işin kolayca başka dillere de uyarlanabilir. Sistemo g gc sbelge erişiminde bu alandaki en iyi yüntemlere yakın bir başarım sergilemektedir.s o sBunun yanında onerilen yüntemin anlamsal benzerlikleri bulmada başrılı olmasıü o sbelge dizinleme işin etkili bişimde kulanılabileceğini güstermektedir.c c g oiiiAnahtar süzcükler : kelime eşleme, belge erişimi, gürsel ogeler kü mesi.s s o üğ uou

Özet (Çeviri)

ABSTRACTA NEW REPRESENTATION FOR MATCHING WORDSEsra AtaerM.S. in Computer EngineeringSupervisor: Assist. Prof. Pınar Duygulu SahinşJuly, 2007Large archives of historical documents are challenging to many researchers allover the world. However, these archives remain inaccessible since manual index-ing and transcription of such a huge volume is difficult. In addition, electronicimaging tools and image processing techniques gain importance with the rapidincrease in digitalization of materials in libraries and archives. In this thesis,a language independent method is proposed for representation of word images,which leads to retrieval and indexing of documents. While character recogni-tion methods suffer from preprocessing and overtraining, we make use of anothermethod, which is based on extracting words from documents and representingeach word image with the features of invariant regions. The bag-of-words ap-proach, which is shown to be successful to classify objects and scenes, is adaptedfor matching words. Since the curvature or connection points, or the dots areimportant visual features to distinct two words from each other, we make use ofthe salient points which are shown to be successful in representing such distinc-tive areas and heavily used for matching. Difference of Gaussian (DoG) detector,which is able to find scale invariant regions, and Harris Affine detector, whichdetects affine invariant regions, are used for detection of such areas and detectedkeypoints are described with Scale Invariant Feature Transform (SIFT) features.Then, each word image is represented by a set of visual terms which are obtainedby vector quantization of SIFT descriptors and similar words are matched basedon the similarity of these representations by using different distance measures.These representations are used both for document retrieval and word spotting.The experiments are carried out on Arabic, Latin and Ottoman datasets,which included different writing styles and different writers. The results show thatthe proposed method is successful on retrieval and indexing of documents even ifwith different scripts and different writers and since it is language independent,iiiit can be easily adapted to other languages as well. Retrieval performance of thesystem is comparable to the state of the art methods in this field. In addition,the system is succesfull on capturing semantic similarities, which is useful forindexing, and it does not include any supervising step.

Benzer Tezler

  1. Pose sentences: A new representation for understanding human actions

    Poz cümleleri: İnsan aktivitelerini anlamak için yeni bir tanım

    KARDELEN HATUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU

  2. Direct pore-based identification for fingerprint matching process

    Parmak izi kimliklendirme sürecincde por temellieşleştirme sistemi

    VEDAT DELİCAN

    Doktora

    İngilizce

    İngilizce

    2023

    Adli Tıpİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  3. Özgün paragraf tabanlı çıkarım tekniği kullanarak otomatik çoklu doküman özetleme

    Automatic multi-document summarization using original paragraph based extraction technique

    METİN TURAN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. AHMET COŞKUN SÖNMEZ

  4. Katlıdizeylerin çokdeğişkenliliği yükseltilmiş çarpımlar üçköşegencil gösterilim yoluyla ayrıştırımı: Kavramcıl taban ve uygulayışlar

    Tridiagonal folmat enhanced multivariance products representation: Conceptual background and applications

    ZEYNEP GÜNDOĞAR

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. METİN DEMİRALP

  5. İmalat stratejileri ve imalat teknolojisi seçiminde uzman sistem yaklaşımı

    Manufacturing strategies and an expert system approach to selecting manufacturing technology

    İBRAHİM ÇİL

    Doktora

    Türkçe

    Türkçe

    1997

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. RAMAZAN EVREN