Geri Dön

Localization and recognition of text in digital media

Sayısal ortamda bulunan yazıların konumlandırılması ve tanınması

  1. Tez No: 177457
  2. Yazar: AHMET SARACOĞLU
  3. Danışmanlar: DOÇ.DR. A. AYDIN ALATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: yapay yazı, sahne yazısı, Video OCR, karakter tanıma, Markov Rasgele Alanları, yazı konumlandırma, perspektif doğrultma, overlay-text, scene-text, Video OCR, character recognition, Markov Random Fields, text localization, perspective rectification
  7. Yıl: 2007
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 113

Özet

Sayısal görüntü ortamlarında bulunan yazı bilgisi çok farklı alanlarda kullanılabilir örneğin; medya veritabanlarının dizinlenmesi ve yapılandırılmasında, görme engellilere yardımda, yabancı dillerdeki tabelaların çevirisinde ve daha bir çoğunda kullanılabilir. Sayısal ortamda bulunan yazılar yapay yazılar ve sahne yazıları olarak iki ana kategoriye ayrılabilir. Bu tezde, kategorisi ne olursa olsun sayısal ortamda bulunan yazıların yerlerinin bulunması ve tanınması üzerine araştırma yapılmıştır. İlk adım olarak bütün sistemin çerçevesi üzerinde durulmuştur. Daha sonra, öznitelik vektörleri ve sınıflandırma yöntemleri karşılaştırmalı olarak incelenmiştir. Ayrıca, yazının çok parçalı doğası Markov Rasgele Alanları yaklaşımı önerilerek değerlendirilmiştir. Buna ek olarak yazının daha iyi konumlandırılması için karakter kutusu çıkarma yöntemi öne sürülmüştür. Yazı alanlarının tanınması için ise elyazısına dayalı Optik Karakter Tanıma sistemi detaylı bir şekilde incelenmiştir. İnceleme sırasında, arka planın ayrılması için çoklu-hipotez yaklaşımına dayalı ve k-Ortalamalar yöntemini kullanan bir yöntem kullanılmıştır. Ayrıca tanıma sonuçlarının düzeltilmesi için sözlük tabanlı sıralama yöntemi önerilmiştir ve de sistemin tamamı güç bir veri kümesi üzerinde benzetimlenmiştir. Sahne yazılarınn bulunması ve tanınması üzerinde detaylı bir araştırma da sunulmuştur. Bununla birlikte zorluklar belirlenmiş ve ilgili çalışmalar ele alınmıştır. Ayrıca, sahne yazılarınn konumlandırılması kamusal bir yarışma veri kümesi üzerinde benzetimlenmiştir. Son olarak da, levha üzerinde bulunan ve perspektif izdüşüm bozulumundan etkilenen yazıların doğrultulması için bir yöntem önerilmiş ve sınanmıştır.

Özet (Çeviri)

Textual information within digital media can be used in many areas such as, indexing and structuring of media databases, in the aid of visually impaired, translation of foreign signs and many more. This said, mainly text can be separated into two categories in digital media as, overlay-text and scene-text. In this thesis localization and recognition of video text regardless of its category in digital media is investigated. As a necessary first step, framework of a complete system is discussed. Next, a comparative analysis of feature vector and classification method pairs is presented. Furthermore, multi-part nature of text is exploited by proposing a novel Markov Random Field approach for the classification of text/non-text regions. Additionally, better localization of text is achieved by introducing bounding-box extraction method. And for the recognition of text regions, a handprint based Optical Character Recognition system is thoroughly investigated. During the investigation of text recognition, multihypothesis approach for the segmentation of background is proposed by incorporating k-Means clustering. Furthermore, a novel dictionary-based ranking mechanism is proposed for recognition spelling correction. And overall system is simulated on a challenging data set. Also, a through survey on scene-text localization and recognition is presented. Furthermore, challenges are identified and discussed by providing related work on them. Scene-text localization simulations on a public competition data set are also provided. Lastly, in order to improve recognition performance of scene-text on signs that are affected from perspective projection distortion, a rectification method is proposed and simulated.

Benzer Tezler

  1. Information extraction from sales flyers using semi-supervised learning

    Yarı denetimli öğrenme kullanılarak satış broşürlerinden bilgi çıkarımı

    HARLINTON PALACIOS MOSQUERA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YAKUP GENÇ

  2. Biomedical entity normalization using clustering and text similarity

    Kümeleme ve metin benzerliği kullanarak biyomedikal varlık ismi normalizasyonu

    BERKE KAVAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  3. Understanding actions in instructional videos

    Eğitici videolardaki eylemleri anlamak

    ÖZGE YALÇINKAYA ŞİMŞEK

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. PINAR DUYGULU ŞAHİN

  4. A constraint based real-time license plate recognition system

    Kısıt tabanlı gerçek zamanlı plaka tanıma sistemi

    ALİ GÖKAY GÜNAYDIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADNAN YAZICI

  5. Doküman kategorizasyonu ve imza bölge analizi

    Document categorization and signature region analysis

    İLKHAN CÜCELOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    BankacılıkBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL