Localization and recognition of text in digital media
Sayısal ortamda bulunan yazıların konumlandırılması ve tanınması
- Tez No: 177457
- Danışmanlar: DOÇ.DR. A. AYDIN ALATAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: yapay yazı, sahne yazısı, Video OCR, karakter tanıma, Markov Rasgele Alanları, yazı konumlandırma, perspektif doğrultma, overlay-text, scene-text, Video OCR, character recognition, Markov Random Fields, text localization, perspective rectification
- Yıl: 2007
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 113
Özet
Sayısal görüntü ortamlarında bulunan yazı bilgisi çok farklı alanlarda kullanılabilir örneğin; medya veritabanlarının dizinlenmesi ve yapılandırılmasında, görme engellilere yardımda, yabancı dillerdeki tabelaların çevirisinde ve daha bir çoğunda kullanılabilir. Sayısal ortamda bulunan yazılar yapay yazılar ve sahne yazıları olarak iki ana kategoriye ayrılabilir. Bu tezde, kategorisi ne olursa olsun sayısal ortamda bulunan yazıların yerlerinin bulunması ve tanınması üzerine araştırma yapılmıştır. İlk adım olarak bütün sistemin çerçevesi üzerinde durulmuştur. Daha sonra, öznitelik vektörleri ve sınıflandırma yöntemleri karşılaştırmalı olarak incelenmiştir. Ayrıca, yazının çok parçalı doğası Markov Rasgele Alanları yaklaşımı önerilerek değerlendirilmiştir. Buna ek olarak yazının daha iyi konumlandırılması için karakter kutusu çıkarma yöntemi öne sürülmüştür. Yazı alanlarının tanınması için ise elyazısına dayalı Optik Karakter Tanıma sistemi detaylı bir şekilde incelenmiştir. İnceleme sırasında, arka planın ayrılması için çoklu-hipotez yaklaşımına dayalı ve k-Ortalamalar yöntemini kullanan bir yöntem kullanılmıştır. Ayrıca tanıma sonuçlarının düzeltilmesi için sözlük tabanlı sıralama yöntemi önerilmiştir ve de sistemin tamamı güç bir veri kümesi üzerinde benzetimlenmiştir. Sahne yazılarınn bulunması ve tanınması üzerinde detaylı bir araştırma da sunulmuştur. Bununla birlikte zorluklar belirlenmiş ve ilgili çalışmalar ele alınmıştır. Ayrıca, sahne yazılarınn konumlandırılması kamusal bir yarışma veri kümesi üzerinde benzetimlenmiştir. Son olarak da, levha üzerinde bulunan ve perspektif izdüşüm bozulumundan etkilenen yazıların doğrultulması için bir yöntem önerilmiş ve sınanmıştır.
Özet (Çeviri)
Textual information within digital media can be used in many areas such as, indexing and structuring of media databases, in the aid of visually impaired, translation of foreign signs and many more. This said, mainly text can be separated into two categories in digital media as, overlay-text and scene-text. In this thesis localization and recognition of video text regardless of its category in digital media is investigated. As a necessary first step, framework of a complete system is discussed. Next, a comparative analysis of feature vector and classification method pairs is presented. Furthermore, multi-part nature of text is exploited by proposing a novel Markov Random Field approach for the classification of text/non-text regions. Additionally, better localization of text is achieved by introducing bounding-box extraction method. And for the recognition of text regions, a handprint based Optical Character Recognition system is thoroughly investigated. During the investigation of text recognition, multihypothesis approach for the segmentation of background is proposed by incorporating k-Means clustering. Furthermore, a novel dictionary-based ranking mechanism is proposed for recognition spelling correction. And overall system is simulated on a challenging data set. Also, a through survey on scene-text localization and recognition is presented. Furthermore, challenges are identified and discussed by providing related work on them. Scene-text localization simulations on a public competition data set are also provided. Lastly, in order to improve recognition performance of scene-text on signs that are affected from perspective projection distortion, a rectification method is proposed and simulated.
Benzer Tezler
- Information extraction from sales flyers using semi-supervised learning
Yarı denetimli öğrenme kullanılarak satış broşürlerinden bilgi çıkarımı
HARLINTON PALACIOS MOSQUERA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Biomedical entity normalization using clustering and text similarity
Kümeleme ve metin benzerliği kullanarak biyomedikal varlık ismi normalizasyonu
BERKE KAVAK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Understanding actions in instructional videos
Eğitici videolardaki eylemleri anlamak
ÖZGE YALÇINKAYA ŞİMŞEK
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PINAR DUYGULU ŞAHİN
- A constraint based real-time license plate recognition system
Kısıt tabanlı gerçek zamanlı plaka tanıma sistemi
ALİ GÖKAY GÜNAYDIN
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
- Doküman kategorizasyonu ve imza bölge analizi
Document categorization and signature region analysis
İLKHAN CÜCELOĞLU
Yüksek Lisans
Türkçe
2014
BankacılıkBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN OĞUL