Geri Dön

A line-based representation for matching words

Kelime eşlenmesi içim çizgi tabanlı bir niteleme

  1. Tez No: 246752
  2. Yazar: ETHEM FATİH CAN
  3. Danışmanlar: YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 60

Özet

Tarihi dokümanların sayısal ortama aktarılması ile, bu doköumanlara hızlı erişim daha çok önem kazanmıştır. Sayısal ortamdaki tarihi dokümanların elle dizinlenmesi çok zaman almanın yanı sıra ancak sınırlı sayıda dokümanlar üzerinde yapılabilmektedir. Bu yüzden otomatik dizinleme önem kazanmaktadır. Optik karakter tanıma (OPT) sistemleri yıllardır çalısılan bir konu olmakla beraber, tarihi dokümanlar üzerinde çoğunlukla istenilen sonuçları vermemektedir. Buna neden olarak, tarihi dokümanların yıpranmış olması, ve yazım şekillerinin farklılıkları gösterilebilir. Daha da önemlisi, OPT sistemleri genellikle tek bir dile odaklı olarak çalışmaktadır, ve farklı diller için çalışan sistemler nadir olarak bulunmaktadır. Kelime tabanlı arama teknikleri, OPT çalışmalarına alternatif olarak sunulmuştur ve kelimelerin tek bir seferde okunduğu prensibine dayanır. Bu tip çalısmalarda, kelimenin harferini ayrı ayrı incelemek yerine kelimeninbütün olarak incelenmesi esasına dayanır. Yıpranmış ve lekeli dokümanlar, ve farklı yazım şekilleri gibi etkenlerden dolayı, tarihi dokümanlarda tanımlama ve arama, kelime tabanlı arama çalışmalarında da henüz tam olarak çözülememiştir. Bu çalışmada, bu problemlere çözüm olarak basit fakat etkili bir yöntem sunulmuştur; bu yöntemde kelimeler çizgi tabanlı bir niteleme yöntemiyle ifade edilmiştir. Buna ek olarak, iki farklı eşleme yöntemi sunulmuş, ve bu yöntemler kelime eşlemek ve redif bulmak için kullanılmıştır. Çizgi tabanlı niteleme yöntemini kullanan sunduğumuz yaklaşımlar, önceki çalışmaların aksine karmaşık ön işleme safhalarına ihtiyaç duymamaktadır. Kelime eşleme için yapılan deneylerin sonuçlarının, daha önceki çalişmalarda elde edilen sonuçlardan daha iyi olduğu gözlemlenmiştir. Redif bulma işlemi göz önünde bulundurulduğunda ise deneylerin sonuçları, daha detaylı çalışmalar için ümit vaat edicidir.

Özet (Çeviri)

With the increase of the number of documents available in the digital environment, efficient access to the documents becomes crucial. Manual indexing of the documents is costly; however, and can be carried out only in limited amounts. Therefore, automatic analysis of documents is crucial. Although plenty of effort has been spent on optical character recognition (OCR), most of the existing OCR systems fail to address the challenge of recognizing characters in historical documents on account of the poor quality of old documents, the high level of noise factors, and the variety of scripts. More importantly, OCR systems are usually language dependent and not available for all languages. Word spotting techniques have been recently proposed to access the historical documents with the idea that humans read whole words at a time. In these studies the words rather than the characters are considered as the basic units. Due to the poor quality of historical documents, the representation and matching of words continue to be challenging problems for word spotting. In this study we address these challenges and propose a simple but effective method for the representation of word images by a set of line descriptors. Then, two different matching criteria making use of the line-based representation are proposed. We apply our methods on the word spotting and redif extraction tasks. The proposed line-based representation does not require any specific pre-processing steps, and is applicable to different languages and scripts. In word spotting task, our results provide higher scores than the existing word spotting studies in terms of retrieval and recognition performances. In the redif extraction task, we obtain promising results providing a motivation for further and advanced studies on Ottoman literary texts.

Benzer Tezler

  1. Historical document analysis based on word matching

    Kelime eşleştirme tabanlı tarihsel belge analizi

    DAMLA ARİFOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. PINAR DUYGULU

  2. İmalat stratejileri ve imalat teknolojisi seçiminde uzman sistem yaklaşımı

    Manufacturing strategies and an expert system approach to selecting manufacturing technology

    İBRAHİM ÇİL

    Doktora

    Türkçe

    Türkçe

    1997

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. RAMAZAN EVREN

  3. A line based pose representation for human action recognition

    İnsan hareketlerinin tanınması için çizgi tabanlı bir poz temsili

    SERMETCAN BAYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. PINAR DUYGULU