Development of a software tool for optical text recognition for Turkish

Başlık çevirisi mevcut değil.

Tez No: 35314
Yazar: MOİZ RESKO
Danışmanlar: DOÇ. DR. H. LEVENT AKIN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 1994
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 157

Özet

ÖZET Bu çalışma, Türkçe dokümanlara yönelik bir Doküman Analizi Sisteminin gereklerini ve öğelerini tanıtmaktadır. Literatürde böyle bir sistemin bazı kritik problemlerine ve yapılması gereken bölümlerine çözümler getirilmiştir. Bazı problemler için de, bu çalışmada yeni yaklaşımlar geliştirilrniştir. ikili görüntüler elde etmek amacıyla, gönümüz okuyucularında kullanılan geleneksel görüntü dosya tipleri mcelenmiştir. Görüntülerin herhangi bir tipte saklanmasından sonra, gri-tonhı görüntülerden, ikili görüntüler elde etmek işlemlerin ileriM bölümlerinde rahat çalışabilmek için önemlidir. Bir Doküman Analizi Sistemindeki önemli problemlerin arasında her görüntüde olabilen, gürültü veya eğim açısı gibi hataların anlaşılması ve düzeltilmesi gelir. Açıyı anlamak için çizgi yerleştirme metodu güzel bir yaklaşımdır; açı düzeltmek için ise basit matematiksel denklemler kullanılmıştır. Gürültü giderimi için birkaç yaklaşım tanıtıldıktan sonra Uzamsal Pürüz Giderme metodu en uygun bulunmuştur. Diğer bir problem, yazı içeren kısımların, grafik veya çevre çizgileri gibi diğer bölümlerden ayrılmasıdır. Siyah bölgelerin ayrılıp, bazı özellMerinin analiz edilmesi bu problemi çözmekte yardımcı olacaktır. Görüntüyü içindeki ayrı bölümlere dilimlendirmek için üç yöntem tanıtılmıştır; sınır takip etme, noktalara bağlı diliııüendirme, ve satırlara bağlı dilimlendirme. Sınır takip etme yöntemi literatürden alınmış, diğer iki yöntem ise bu çalışmada geh^tirilmiştir. Bölümlenmiş kısımlar daha sonra uygun bir şekilde tanımlanıp, bu tanımlardan gösterdikleri şekle göre sınıflandmlmahdırlar (Harf, sayı, v.b.). Tanımlama her bir bölümün tipik bazı özelliklerine göre yapılır. Bu özellikler, asıl karakter tanımlama bölümü olan sınıflandırmada kullanılırlar. Yazı tipine, harf boyuna, veya duruş şekline bağlı kalmayan bir sınıflama yapmak için yapay sinir ağlarında hata geri yayma yöntemi kulanurnıştır.

Özet (Çeviri)

IV ABSTRACT This study outlines the requirements and components of a Document Analysis System for Turkish texts. Several critical solutions are given in literature for some of the main problems. Here we present new approaches to solve other problems. In order to obtain binary images, the image formats of typical files used in conventional scanners are investigated. After storing the image in any format, binarization of the gray-scale images is crucial, in order to process documents easily. Among the most common topics of a Document Analysis System are detection and elimination of noises and skew angles that occur in almost every scanning environment For angle detection, line fitting is a good approach; to correct angles simple mathematical equations may be used. After discussing popular noise elimination approaches, spatial smoothing is found to best fit to this problem. The separation of the text part, from non-text shapes such as graphical parts or gridlines, is another problem. Separating black regions and analysing them as lines of text or graphics, helps to overcome this problem. For segmentation of the image into distinct symbol images, three methods are discussed: boundary following, pixel based segmentation, and line based segmentation. Boundary following algorithm is taken from literature whereas the other two methods are developed in this study. The segmented portion then must be well represented, and according to this representation, must be classified (letters, digits, etc.). The representation is done according to certain features of each segment. Then these features are used in the classification process which is the main character recognition part. In order to have a character recognition system not constrained by font, size, and orientation, artificial neural networks with Back Propagation learning algorithm is used.

Benzer Tezler

Tez No
83108
Genişbandlı şebekelerde hizmet adaptasyon protokolleri
Başlık çevirisi yok
RECEP EVREN PALANDUZ
Yüksek Lisans
Türkçe
1999
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNSEL DURUSOY
Tez No
19301
Bilgisayar destekli tasarım (CAD) uygulamalarında civata bağlantılarının hesaplanması ve kütüphane oluşturulması
Creating picture libraries in CAD aplications
TEZER KARAYOL
Yüksek Lisans
Türkçe
1991
Makine Mühendisliği İstanbul Teknik Üniversitesi
PROF.DR. MUSTAFA AKKURT
Tez No
39445
Kırsal bölgelerde bilgi sistemlerinin uygulanması olanakları
Başlık çevirisi yok
DURSUN ZAFER ŞEKER
Doktora
Türkçe
1993
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
PROF.DR. M. ORHAN ALTAN
Tez No
139400
How cryptographic implementations affect mobile agent systems
Şifreleme gerçekleştirmelerinin gezgin aracı internet sistemlerini nasıl etkilediği
İSMAİL ULUKUŞ
Yüksek Lisans
İngilizce
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
PROF. DR. EMİN ANARIM
Tez No
958899
Peyzaj tasarımı görselleştirmelerinde 3 boyutlu modelleme ile yapay zekâ araçlarının karşılaştırılması
Comparison of 3D modeling and artificial intelligence tools in landscape design visualizations
TÜRKAN AZERİ
Yüksek Lisans
Türkçe
2025
Peyzaj Mimarlığı Akdeniz Üniversitesi
Peyzaj Mimarlığı Ana Bilim Dalı
DOÇ. DR. AHMET BENLİAY

Geri Dön