Geri Dön

Historical document analysis based on word matching

Kelime eşleştirme tabanlı tarihsel belge analizi

  1. Tez No: 285288
  2. Yazar: DAMLA ARİFOĞLU
  3. Danışmanlar: YRD. DOÇ. DR. PINAR DUYGULU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Tarihsel belgelerin otomatik erişimi ve dizinlenmesi bir çok alandan ve ülkeden araştırmacı için faydalı olacaktır. Ne yazık ki, bu belgelerdeki yıpranma ve lekeler yüzünden, Optik Karakter Tanıma (OKT) tekniklerinin bu belgelerde başarılı olması zordur. Son zamanlarda, bu belgelerde erişim problemi kelime eşleştirme yöntemleriyle çözülmeye çalışılmıştır. Bu tezde, iki tarihsel belge analizi problemi, tarihsel belgelerin kelimelere bölütlenmesi ve Kufi resimlerinde İslami motiflerin eşleştirilmesi, kelime eşleştirme tabanlı yöntemlerle çözülmeye çalışılmıştır. Birinci problemin çözümü için çapraz belgelerde kelime eşleştirme tabanlı bir yöntem önerilmiştir. Bir belgenin kelime bölütlemenin kolay olacağı bir versiyonu kaynak veri kümesi ve de diğer başka bir yazı tarzıyla yazılan ve kelime bölütlemesinin zor olacağı bir versiyonu da hedef veri kümesi olarak kullanılmıştır. Kaynak veri kümesi basit bir yöntemle kelimelerine bölütlenmiş ve elde edilen bu kelimeler sorgu kelimeleri olarak kullanılarak hedef veri kümesindeki yerleri saptanmaya çalışılmıştır. Yapılan deneyler, çapraz belgelerde kelime eşleştirme tabanlı yöntemin tarihsel belgelerde kelime bölütlemesi için umut verici sonuçlar verdiğini göstermişir. İkinci problemin çözümü için sunulan yöntemde, öncelikle resimlerdeki çizgiler çıkartılır ve alt-kelimeler otomatik olarak bulunur. Daha sonra alt-kelimeler, çizgi tabanlı zincir kod gösterimi eşleştirmesi ve şekil içeriği tanımlayıcısı eşleştirmesi yöntemleriyle eşleştirilir. Kare kufi resimlerinden oluşan bir veri kümesi üzerinde yapılan deneyler, sunulan kelime eşleştirme tabanlı yöntemin umut verici sonuçlar verdiğini göstermiştir.

Özet (Çeviri)

Historical documents constitute a heritage which should be preserved and providing automatic retrieval and indexing scheme for these archives would be beneficial for researchers from several disciplines and countries. Unfortunately, applying ordinary Optical Character Recognition (OCR) techniques on these documents is nearly impossible, since these documents are degraded and deformed. Recently, word matching methods are proposed to access these documents. In this thesis, two historical document analysis problems, word segmentation in historical documents and Islamic pattern matching in kufic images are tackled based on word matching. In the first task, a cross document word matching based approach is proposed to segment historical documents into words. A version of a document, in which word segmentation is easy, is used as a source data set and another version in a different writing style, which is more difficult to segment into words, is used as a target data set. The source data set is segmented into words by a simple method and extracted words are used as queries to be spotted in the target data set. Experiments on an Ottoman data set show that cross document word matching is a promising method to segment historical documents into words. In the second task, firstly lines are extracted and sub-patterns are automatically detected in the images. Then sub-patterns are matched based on a line representation in two ways: by their chain code representation and by their shape contexts. Promising results are obtained for finding the instances of a query pattern and for fully automatic detection of repeating patterns on a square kufic image collection.

Benzer Tezler

  1. Segmentation based Ottoman text and matching based kufic image analysis

    Bölütleme tabanlı Osmanlıca metin ve eşleştirme tabanlı kufi resim analizi

    HANDE ADIGUZEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

  2. A line-based representation for matching words

    Kelime eşlenmesi içim çizgi tabanlı bir niteleme

    ETHEM FATİH CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

  3. Osmanlıcadan modern Türkçeye uçtan uca aktarım sistemi

    End-to-end conversion system from Ottoman to modern Turkish

    İSHAK DÖLEK

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ATAKAN KURT

  4. Oğuzca Kur'an tercümeleri üzerine eş zamanlı ve art zamanlı bir dil incelemesi: Zâriyat Suresi örneği

    A synchronic and diachronic language study on the Qur'an translations of Oghuz languages: The Surah Zariyat

    AYŞEGÜL GÜRSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Dilbilimİstanbul Üniversitesi

    Dil Bilimi Araştırmaları Ana Bilim Dalı

    PROF. DR. MURAT ELMALI

  5. Türkçede -Ik yapım ekinin biçimbilim-anlambilim arayüzünde değerlendirilmesi

    The evaluation of the -Ik suffix in Turkish at the morphology-semantics interface

    KADİR CAN ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    DilbilimYıldız Teknik Üniversitesi

    Türkçe ve Sosyal Bilimler Ana Bilim Dalı

    DOÇ. DR. HASAN MESUT MERAL