Geri Dön

Development of a software tool for optical text recognition for Turkish

Başlık çevirisi mevcut değil.

  1. Tez No: 35314
  2. Yazar: MOİZ RESKO
  3. Danışmanlar: DOÇ. DR. H. LEVENT AKIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1994
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 157

Özet

ÖZET Bu çalışma, Türkçe dokümanlara yönelik bir Doküman Analizi Sisteminin gereklerini ve öğelerini tanıtmaktadır. Literatürde böyle bir sistemin bazı kritik problemlerine ve yapılması gereken bölümlerine çözümler getirilmiştir. Bazı problemler için de, bu çalışmada yeni yaklaşımlar geliştirilrniştir. ikili görüntüler elde etmek amacıyla, gönümüz okuyucularında kullanılan geleneksel görüntü dosya tipleri mcelenmiştir. Görüntülerin herhangi bir tipte saklanmasından sonra, gri-tonhı görüntülerden, ikili görüntüler elde etmek işlemlerin ileriM bölümlerinde rahat çalışabilmek için önemlidir. Bir Doküman Analizi Sistemindeki önemli problemlerin arasında her görüntüde olabilen, gürültü veya eğim açısı gibi hataların anlaşılması ve düzeltilmesi gelir. Açıyı anlamak için çizgi yerleştirme metodu güzel bir yaklaşımdır; açı düzeltmek için ise basit matematiksel denklemler kullanılmıştır. Gürültü giderimi için birkaç yaklaşım tanıtıldıktan sonra Uzamsal Pürüz Giderme metodu en uygun bulunmuştur. Diğer bir problem, yazı içeren kısımların, grafik veya çevre çizgileri gibi diğer bölümlerden ayrılmasıdır. Siyah bölgelerin ayrılıp, bazı özellMerinin analiz edilmesi bu problemi çözmekte yardımcı olacaktır. Görüntüyü içindeki ayrı bölümlere dilimlendirmek için üç yöntem tanıtılmıştır; sınır takip etme, noktalara bağlı diliııüendirme, ve satırlara bağlı dilimlendirme. Sınır takip etme yöntemi literatürden alınmış, diğer iki yöntem ise bu çalışmada geh^tirilmiştir. Bölümlenmiş kısımlar daha sonra uygun bir şekilde tanımlanıp, bu tanımlardan gösterdikleri şekle göre sınıflandmlmahdırlar (Harf, sayı, v.b.). Tanımlama her bir bölümün tipik bazı özelliklerine göre yapılır. Bu özellikler, asıl karakter tanımlama bölümü olan sınıflandırmada kullanılırlar. Yazı tipine, harf boyuna, veya duruş şekline bağlı kalmayan bir sınıflama yapmak için yapay sinir ağlarında hata geri yayma yöntemi kulanurnıştır.

Özet (Çeviri)

IV ABSTRACT This study outlines the requirements and components of a Document Analysis System for Turkish texts. Several critical solutions are given in literature for some of the main problems. Here we present new approaches to solve other problems. In order to obtain binary images, the image formats of typical files used in conventional scanners are investigated. After storing the image in any format, binarization of the gray-scale images is crucial, in order to process documents easily. Among the most common topics of a Document Analysis System are detection and elimination of noises and skew angles that occur in almost every scanning environment For angle detection, line fitting is a good approach; to correct angles simple mathematical equations may be used. After discussing popular noise elimination approaches, spatial smoothing is found to best fit to this problem. The separation of the text part, from non-text shapes such as graphical parts or gridlines, is another problem. Separating black regions and analysing them as lines of text or graphics, helps to overcome this problem. For segmentation of the image into distinct symbol images, three methods are discussed: boundary following, pixel based segmentation, and line based segmentation. Boundary following algorithm is taken from literature whereas the other two methods are developed in this study. The segmented portion then must be well represented, and according to this representation, must be classified (letters, digits, etc.). The representation is done according to certain features of each segment. Then these features are used in the classification process which is the main character recognition part. In order to have a character recognition system not constrained by font, size, and orientation, artificial neural networks with Back Propagation learning algorithm is used.

Benzer Tezler

  1. Genişbandlı şebekelerde hizmet adaptasyon protokolleri

    Başlık çevirisi yok

    RECEP EVREN PALANDUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜNSEL DURUSOY

  2. Kırsal bölgelerde bilgi sistemlerinin uygulanması olanakları

    Başlık çevirisi yok

    DURSUN ZAFER ŞEKER

    Doktora

    Türkçe

    Türkçe

    1993

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    PROF.DR. M. ORHAN ALTAN

  3. How cryptographic implementations affect mobile agent systems

    Şifreleme gerçekleştirmelerinin gezgin aracı internet sistemlerini nasıl etkilediği

    İSMAİL ULUKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF. DR. EMİN ANARIM

  4. Development of a comprehensive simulation software for spacecraft missions

    Uzay aracı görevleri için kapsamlı bir simülasyon yazılımı geliştirilmesi

    EMİRHAN ESER GÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Savunma ve Savunma Teknolojileriİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Bilim Dalı

    PROF. DR. ALİM RÜSTEM ASLAN