A line-based representation for matching words

Kelime eşlenmesi içim çizgi tabanlı bir niteleme

PDF İndir

Tez No: 246752
Yazar: ETHEM FATİH CAN
Danışmanlar: YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 60

Özet

Tarihi dokümanların sayısal ortama aktarılması ile, bu doköumanlara hızlı erişim daha çok önem kazanmıştır. Sayısal ortamdaki tarihi dokümanların elle dizinlenmesi çok zaman almanın yanı sıra ancak sınırlı sayıda dokümanlar üzerinde yapılabilmektedir. Bu yüzden otomatik dizinleme önem kazanmaktadır. Optik karakter tanıma (OPT) sistemleri yıllardır çalısılan bir konu olmakla beraber, tarihi dokümanlar üzerinde çoğunlukla istenilen sonuçları vermemektedir. Buna neden olarak, tarihi dokümanların yıpranmış olması, ve yazım şekillerinin farklılıkları gösterilebilir. Daha da önemlisi, OPT sistemleri genellikle tek bir dile odaklı olarak çalışmaktadır, ve farklı diller için çalışan sistemler nadir olarak bulunmaktadır. Kelime tabanlı arama teknikleri, OPT çalışmalarına alternatif olarak sunulmuştur ve kelimelerin tek bir seferde okunduğu prensibine dayanır. Bu tip çalısmalarda, kelimenin harferini ayrı ayrı incelemek yerine kelimeninbütün olarak incelenmesi esasına dayanır. Yıpranmış ve lekeli dokümanlar, ve farklı yazım şekilleri gibi etkenlerden dolayı, tarihi dokümanlarda tanımlama ve arama, kelime tabanlı arama çalışmalarında da henüz tam olarak çözülememiştir. Bu çalışmada, bu problemlere çözüm olarak basit fakat etkili bir yöntem sunulmuştur; bu yöntemde kelimeler çizgi tabanlı bir niteleme yöntemiyle ifade edilmiştir. Buna ek olarak, iki farklı eşleme yöntemi sunulmuş, ve bu yöntemler kelime eşlemek ve redif bulmak için kullanılmıştır. Çizgi tabanlı niteleme yöntemini kullanan sunduğumuz yaklaşımlar, önceki çalışmaların aksine karmaşık ön işleme safhalarına ihtiyaç duymamaktadır. Kelime eşleme için yapılan deneylerin sonuçlarının, daha önceki çalişmalarda elde edilen sonuçlardan daha iyi olduğu gözlemlenmiştir. Redif bulma işlemi göz önünde bulundurulduğunda ise deneylerin sonuçları, daha detaylı çalışmalar için ümit vaat edicidir.

Özet (Çeviri)

With the increase of the number of documents available in the digital environment, efficient access to the documents becomes crucial. Manual indexing of the documents is costly; however, and can be carried out only in limited amounts. Therefore, automatic analysis of documents is crucial. Although plenty of effort has been spent on optical character recognition (OCR), most of the existing OCR systems fail to address the challenge of recognizing characters in historical documents on account of the poor quality of old documents, the high level of noise factors, and the variety of scripts. More importantly, OCR systems are usually language dependent and not available for all languages. Word spotting techniques have been recently proposed to access the historical documents with the idea that humans read whole words at a time. In these studies the words rather than the characters are considered as the basic units. Due to the poor quality of historical documents, the representation and matching of words continue to be challenging problems for word spotting. In this study we address these challenges and propose a simple but effective method for the representation of word images by a set of line descriptors. Then, two different matching criteria making use of the line-based representation are proposed. We apply our methods on the word spotting and redif extraction tasks. The proposed line-based representation does not require any specific pre-processing steps, and is applicable to different languages and scripts. In word spotting task, our results provide higher scores than the existing word spotting studies in terms of retrieval and recognition performances. In the redif extraction task, we obtain promising results providing a motivation for further and advanced studies on Ottoman literary texts.

Benzer Tezler

Tez No
285288
Historical document analysis based on word matching
Kelime eşleştirme tabanlı tarihsel belge analizi
DAMLA ARİFOĞLU
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. PINAR DUYGULU
Tez No
66402
İmalat stratejileri ve imalat teknolojisi seçiminde uzman sistem yaklaşımı
Manufacturing strategies and an expert system approach to selecting manufacturing technology
İBRAHİM ÇİL
Doktora
Türkçe
1997
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. RAMAZAN EVREN
Tez No
55516
Doğal çatklaklı rezervarlara ait kuyu testi verilerinin doğrusal olmayan regrasyon yöntemleri ile analizi
Başlık çevirisi yok
KUBİLAY MENEKŞE
Doktora
Türkçe
1996
Petrol ve Doğal Gaz Mühendisliği İstanbul Teknik Üniversitesi
DOÇ.DR. MUSTAFA ONUR
Tez No
46342
Bilgisayarla çalışan ofislerde konforsuzluk kamaşması denetimi sağlayan yapma aydınlatma sistemlerinin tasarımı ve uygulaması
Başlık çevirisi yok
NUMAN UĞUR
Yüksek Lisans
Türkçe
1995
Mimarlık İstanbul Teknik Üniversitesi
PROF.DR. MEHMET Ş. KÜÇÜKDOĞU
Tez No
277011
A line based pose representation for human action recognition
İnsan hareketlerinin tanınması için çizgi tabanlı bir poz temsili
SERMETCAN BAYSAL
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. PINAR DUYGULU

Geri Dön