A new segmentation approach to Uighur optic character recognition

Uygurca karakter tanımada yeni bir segmentasyon yöntemi

PDF İndir

Tez No: 647011
Yazar: MEMTİMİN MAHMUT
Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP GENÇ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Gebze Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 73

Özet

Optik Karakter Tanıma (OKT) belgere simdeki harfleri tanıma ve dijital metne çevirmektir. Karakter tanıma sistemleri konvensiyonel medyadan elektronik medyaya çevirmede yoğun kullanım alanı bulmuştur. İlk karakter tanıyıcı 1929 yılında mekanik makine olarak tasarlanmış ve patenti alınmıştır. 1940'lı yıllarında modern bilgisayarın icat edilmesiyle birlikte, otomatik karakter tanıma makinesi bilimsel araştırma ve ticari üretim alanında yoğun ilgi çekmiş ve 1950'li yıllarında ticari amaçla üretilen tanıma makineleri piyasaya girmiştir. 2001 yılında karakter tanıma servisi internet üzerinden temin edilmeye başlamışken, şimdi artık ücretsiz kullanabilmektedir. Ancak bu sistemler Latin alfabesi gibi bitişik olamayan karakterler üzerindeki tanıma problemleri için iyi çalışmaktadır. Bitişik yazılar üzerindeki tanıma problem daha az çalışılmış olup bazı dil karakterleri için henüz olgunlaşmamıştır. Mesela Latince, Japonca ve Çince karakter tanıma sistemleri karakterlerin bitişik olmayan izole özelliğinden dolayı olgunlaşmış sistemler olarak sayılmaktadır. Arapça karakter tanıma ise ilk olarak 1975 yılında çalışılmış olmakla birlikte hala aktif bir araştırma konusudur. Arapçanın böyle olmasının temel nedeni ise bitişik olarak yazılan veya basılan Arapça yazının segmentasyon işleminin başarılı olarak yapılamamasından kaynaklanmaktadır. Uygurca da Arap alfabesi temelindeki harflerle yazılan bir dildir ve bu konuda ilk çalışma 1996 yılında yapılmış olmakla birlikte mevcut system performansları Latin alfabesi düzeyinde değildir. Bunun nedeni de segmentasyon işleminin çok başarlı olamamasındandır. Bu çalışmada, Uygurca yazının segmentasyon işleminde gözlemlediğimiz bazı özellikleri ortaya koymuş ve segmentasyon işlemini daha kolay gerçekleştirime ve hatayı azaltma bakımından katkı sağladığını yaptığımız deneylerle gözlemlemiş bulunuyoruz. Sonraki sınıflandırma aşamasında, derin öğrenme yöntemini üç serikarakterli resime uygulama yoluyla tanıma gerçekleştirmiş ve deneylerle bunun performansı artırdığı görülmüştür. Aynı zamanda bu çalışmamız Arap alfabesi temelinde yazılan başka dil yazıları için de geçerli olacaktır.

Özet (Çeviri)

Optic character recognition (OCR) is software that translates the image of writing to editable and researchable text in ASCII or Unicode format. OCR systems have possessed intensive research value and commercial exploitation because of its attribute to convert the text data from conventional media into electronic media. It's used place is also widened from several kinds of document processing in the office to supplement the attached program in machine vision research and developments. The first concept of the idea of OCR was put forward in 1929/ when the modern computer had not been created yet, was mechanical equipment which involved a photodetector, obtained the first patent on OCR. With the invention of digital computers in the middle of 1940, the OCR system absorbing more interesting in scientific (pattern recognition) research and commercial products area. A commercial OCR was available in 1950. In 2001, OCR systems began to provide online service on the internet and it is already free used techniques or software nowadays. However, those are only limited to OCR for a non-cursive script such as Latin script. For example, OCR systems for Latin, Japanese and Chinese are well developed because of the character of them are isolated which makes their OCR techniques easier to develop. The OCR techniques on the other language scripts including Arabic and Uighur have not been well developed compared to the OCR on Latin script. Arabic OCR, after publishing the first paper in 1975, a large number of research papers and technical reports have appeared and many new techniques have been developed, but it is still an open research field in OCR techniques due to the technical difficulties included by the cursive nature of Arabic script. Uighur alphabets, which were produced based on Arabic script, are the same difficulties and handicappers in research and developing Uighur OCR. In this work, we put up with some segmentation method in the Uighur OCR as well as Arabic OCR that it is easy at calculation design and time complexity. we have observed the sufficiency and productivity of this method by experiment. Then apply the deep learning approach in the classification stage to recognize the three consecutive characters as a unit. Meanwhile, we might assume that this segmentation method is also available to another Arabic script-based language.

Benzer Tezler

Tez No
529765
Medikal görüntüler için yeni bir bölütleme algoritması ve analiz uygulaması
A new segmentation algorithm for medical images and analysis application
SERHAT CAN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET SERDAR GÜZEL
Tez No
307799
A fluid dynamics based image segmentation approach and pap-smear image data classification
Pap-smear örneklerınde akışkan dinamiğine dayalı bır segmentasyon yaklaşımı ve görüntü versinin sınıflandırılması
ÇAĞLAR CENGİZLER
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Çukurova Üniversitesi
Bilgisayar Mühendisliği Bölümü
DOÇ. DR. MUTLU AVCI
DOÇ. DR. MUSTAFA GÜVEN
Tez No
50090
Görüntü işlemede bulanık mantık temelli yeni bir bölütleme yönteminin geliştirilmesi
Başlık çevirisi yok
MEHMET BULUT
Yüksek Lisans
Türkçe
1996
Elektrik ve Elektronik Mühendisliği Dumlupınar Üniversitesi
PROF. DR. HAMDİ ATMACA
Tez No
859849
Ürün bileşeni karakteristiğine dayalı tedarikçi segmentasyonuna yönelik metodoloji tasarımı
Methodology design for supplier segmentation based on product component characteristics
AHMET SELÇUK YALÇIN
Doktora
Türkçe
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. EMRE ÇEVİKCAN
Tez No
676777
Üretken ağlar ve uygulamaları
Generative networks and their applications
GAFFARİ ÇELİK
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İnönü Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH TALU

Geri Dön