A large vocabulary online handwriting recognition system for turkish
Türkçe için geniş dağarcıklı çevrimiçi el yazısı tanıma sistemi
- Tez No: 501861
- Danışmanlar: PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 101
Özet
El yazısı tanıma alanında yapılan pek çok çalışma İngilizce, Arapça ve Çince gibi dillerin yazılarını konu almaktadır. Türkçe için yapılmış sınırlı çalışmaların arasında çevrimiçi tanıma konusunda eksiklik vardır. Bu tez çalışmasıyla ilk kez olarak, en gelişmiş teknolojiyi içeren bir yalıtık ve kısıtsız şekilde yazılmış Türkçe kelime tanıma sistemi gerçekleştirilmiştir. Saklı Markov Modelleri kullanılan sistem önişleme, öznitelik çıkarma, optik modelleme ve dil modelleme birimlerinden oluşmaktadır. Sistem, orta ölçekli bir dağarcıkla tasarlanıp daha sonra büyük dağarcıkla çalışır hale getirilmiştir. Türkçe yazının Latin alfabesi kullanan diğer yazı sistemleri ile olan benzerlikleri, literatürde kullanılan pek çok tekniği Türkçe için de kullanılabilir kılar. Ancak Türkçe'ye has bazı özellikler tanıma işlemini güçleştirmektedir. Bunlardan ikisi gecikmiş vuruşlar ve çok fazla sayıda olan dağarcık dışı kelimelerdir. Bu tezde her iki problem de ayrıntılı şekilde ele alınmış ve bazı çözümler üretilmiştir. Gecikmiş vuruşlar için net bir tanım oluşturulmuş ve bu tanım kullanılarak bir dizi önişleme yöntemi arasından Türkçe'ye en uygunu bulunmuştur. İngilizce UNIPEN veri kümesi ve Türkçe verilerden oluşan diğer bir küme üzerinde yapılan testlerde en iyi sonuç, bu vuruşların silinmesi yöntemi ile elde edilmiştir. Bu şekilde yapılan önişleme ile İngilizce'de 1,000 kelimelik dağarcık için %2.23 artışla %86.1 tanıma başarısı gözlenirken Türkçe'de %2.03 artışla %91.7 tanıma oranı yakalanmıştır. Tanıma sisteminin çözümleme aşamasında kelime-altı birimler kullanılarak dağarcık dışı kelimelerin tanıma başarısına olan olumsuz etkisinin giderilmesi sağlanmıştır. Ayrıca, N-gram istatistiksel dil modelleri de kullanılmıştır. Geniş dağarcıklı tanıma için gövde-ekler şeklinde kelime-altı birimlerin kullanılması ile elde edilen %67.9 tanıma başarısı, kelimelerin kullanılması ile elde edilen başarıdan (%63.8) daha fazla olarak ölçülmüştür.
Özet (Çeviri)
Handwriting recognition in general and online handwriting recognition in particular has been an active research area for several decades. Most of the research have been focused on English and recently on other scripts like Arabic and Chinese. There is a lack of research on recognition in Turkish text and this work primarily fills that gap with a state-of-the-art recognizer for the first time. It contains design and implementation details of a complete recognition system for recognition of Turkish isolated words. Based on the Hidden Markov Models, the system comprises pre-processing, feature extraction, optical modeling and language modeling modules. It considers the recognition of unconstrained handwriting with a limited vocabulary size first and then evolves to a large vocabulary system. Turkish script has many similarities with other Latin scripts, like English, which makes it possible to adapt strategies that work for them. However, there are some other issues which are particular to Turkish that should be taken into consideration separately. Two of the challenging issues in recognition of Turkish text are determined as delayed strokes which introduce an extra source of variation in the sequence order of the handwritten input and high Out-of-Vocabulary (OOV) rate of Turkish when words are used as vocabulary units in the decoding process. This work examines the problems and alternative solutions at depth and proposes suitable solutions for Turkish script particularly. In delayed stroke handling, first a clear definition of the delayed strokes is developed and then using that definition some alternative handling methods are evaluated extensively on the UNIPEN and Turkish datasets. The best results are obtained by removing all delayed strokes, with up to 2.13% and 2.03% points recognition accuracy increases, over the respective baselines of English and Turkish. The overall system performances are assessed as 86.1% with a 1,000-word lexicon and 83.0% with a 3,500-word lexicon on the UNIPEN dataset and 91.7% on the Turkish dataset. Alternative decoding vocabularies are designed with grammatical sub-lexical units in order to solve the problem of high OOV rate. Additionally, statistical bi-gram and tri-gram language models are applied during the decoding process. The best performance, 67.9% is obtained by the large stem-ending vocabulary that is expanded with a bi-gram model on the Turkish dataset. This result is superior to the accuracy of the word-based vocabulary (63.8%) with the same coverage of 95% on the BOUN Web Corpus.
Benzer Tezler
- The impact of online videogames on foreign language self-efficacy and the proficiency in the receptive skills
Çevrimiçi video oyunların yabancı dil özyeterliği ve alımlayıcı beceriler üzerine etkileri
ALİ ÜNAL
Yüksek Lisans
İngilizce
2022
DilbilimUfuk ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. ABDULVAHİT ÇAKIR
- The effect of studying in EFL context on Turkish erasmus exchange students' L2 English language proficiency development
İngilizcenin ortak iletişim dili olarak kullanıldığı bir bağlamda eğitim görmenin Türk erasmus değişim öğrencilerinin ikinci dil olarak İngilizce yeterlilik seviyesi gelişimleri üzerindeki etkisi
GÜNAY ASLAN ÖZDEMİR
Yüksek Lisans
İngilizce
2019
Eğitim ve ÖğretimKocaeli ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DOÇ. DR. DOĞAN YÜKSEL
- Prefix suffix based statistical language models of Turkish
Türkçe'nin önek-sonek tabanlı istatistiksel modelleri
UMUT TOPKARA
Yüksek Lisans
İngilizce
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İLYAS ÇİÇEKLİ
- The interplay between English language student teachers' concerns and their practicum practices
İngilizce öğretmen adaylarının kaygıları ve öğretmenlik uygulaması pratikleri arasındaki etkileşim
SEVAL KAYGISIZ
Doktora
İngilizce
2022
Eğitim ve ÖğretimGazi ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. KEMAL SİNAN ÖZMEN
- The Moroccan pupils' attitudes and perceptions for employing Arabic in English classes
Faslı öğrencilerin İngilizce derslerinde Arapça kullanmaya yönelik tutum ve algıları
YOUNESS HAIRANE
Yüksek Lisans
İngilizce
2022
Eğitim ve Öğretimİstanbul Aydın Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TURKAY BULUT