A comparative study on deep learning-based handwritten text recognition techniques using a brand-new Turkish handwriting dataset
Yepyeni bir Türkçe el yazısı veri seti kullanılarak derin öğrenme tabanlı el yazısı metin tanıma teknikleri üzerine karşılaştırmalı bir çalışma
- Tez No: 935590
- Danışmanlar: DOÇ. DR. ALİ CAN KARACA, DOÇ. DR. AYLA GÜLCÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 80
Özet
El Yazısı Tanıma (HTR), belge analizinin önemli bir alanıdır ve tarihi belgelerin korunmasından yardımcı teknolojilerin geliştirilmesine kadar geniş bir uygulama yelpazesine sahiptir. Yaygın olarak kullanılan dillerde HTR konusunda önemli ilerlemeler kaydedilmiş olmasına rağmen, Türkçe gibi diller büyük ölçüde yeterli veri kümelerinin eksikliği ve dolayısıyla el yazısı problemlerinin özel çözümlerinin geliştirilememesi nedeniyle geri planda kalmıştır. Bu tez, Türkçe el yazılarının oluşturduğu özel zorlukları ele almak amacıyla yeni bir veri kümesi oluşturmayı ve en ileri seviye modelleri Türkçe el yazısının kendine özgü karakteristiğine uygun şekilde dönüştürmeyi hedeflemektedir. Tez, öncelikle Türkçe el yazısı belgelerinin ayrıntılı ve kamuya açık bir derlemesini oluşturarak başlamaktadır ve bu belgeleri titizlikle satır satır ek açıklamalarla zenginleştirilmiştir. 1.610 form, 6.941 satır ve 60.491 kelime içeren bu veri kümesi, HTR sistemlerinin kolayca eğitilmesi ve test edilmesi için tasarlanmıştır. Veri kümesinin hazırlanması; toplama, ön işleme, ek açıklama ekleme ve ardından veri artırma süreçlerini içermektedir. Bu süreçler, gerçek hayattaki çeşitliliği yansıtan yüksek kalitede ve geniş çeşitliliğe sahip örnekler üretmeyi amaçlamaktadır. Satır bölütleme için, Görü Dönüştürücüleri (ViTs) kullanılarak mevcut yöntemleri geride bırakan yeni bir üst düzey yaklaşım önerilmektedir. Genetik Algoritma, A* Yol Planlama ve BN-DRISHTI gibi geleneksel yaklaşımlardan daha iyi performans gösteren bu model, \%92,5'lik Birleşim Üzerinden Kesişim (IoU) skoru, \%85,01'lik algılama doğruluğu ve \%87,20'lik karakter doğruluğu ile karmaşık düzenlere ve el yazısı çeşitliliğine etkili bir şekilde uyum sağlamaktadır. Metin tanıma aşamasında ise, Dikey Dikkat Ağı (VAN) yapısına bir dönüştürücü katmanı eklenerek güçlendirilmiş ve bu sayede uzun vadeli bağımlılıkları ve bağlamsal ilişkileri daha iyi entegre eden bir model geliştirilmiştir. \%19,13'lük karakter hata oranı (CER) ve \%5,57'lik kelime hata oranı (WER) ile modelimiz, TrOCR, HTR-VT ve SimpleHTR gibi temel mimarileri geride bırakarak uzun vadeli bağımlılıkları ve bağlamsal ilişkileri başarıyla işleyebilen yüksek doğruluklu bir sistem sunmaktadır. Bu araştırmanın sonuçları, Görü Dönüştürücüler gibi modern mimarilerin ve hibrit LSTM-Dönüştürücü modellerinin el yazısı tanımada karşılaşılan zorlukları ele alma potansiyelini vurgulamaktadır. Güvenilir bir veri kümesi ve bu veri kümesi için yenilikçi çözümlerin sunulduğu bu tez çalışması, düşük kaynaklı diller için HTR alanına önemli bir katkıda bulunmakta ve gelecekteki araştırmalar ile pratik uygulamalar için bir temel oluşturmaktadır.
Özet (Çeviri)
Handwritten Text Recognition (HTR) is an important field in document analysis, with its applications ranging from the conservation of historical documents to creating assistive technology. Despite significant advances in HTR for extensively used languages, low-resource languages, including Turkish, have been poorly represented, largely due to the lack of rich datasets and specifically crafted solutions. In an attempt to tackle the specific challenge posed by handwritten texts in Turkish, this thesis creates a novel dataset and adapts state-of-the-art models according to the specific characters (e.g. ö,ç,ü,ğ) of handwriting in Turkish. The thesis begins with developing an in-depth Turkish handwritten dataset with careful line-by-line annotations. The dataset will be made publicly available. With 1.610 forms, 6.941 lines, and 60.491 words, it is designed for training and testing HTR systems with ease. Dataset preparation involves processes such as collection, preprocessing, and annotation, and subsequently, augmentation, in an attempt to make high-diversity, high-quality samples available, representing real-life diversity. For line segmentation, a new state-of-the-art approach is proposed using Vision Transformers (ViTs), outperforming conventional approaches including Genetic Algorithm, A* Path Planning, and BN-DRISHTI. With an Intersection over Union (IoU) of 0.925, a 0.8501 detection accuracy, and a 0.8720 character accuracy, our Vision Transformers-based line segmentation model proves to be effective in dealing with documents with complex layout and handwriting diversity. For text recognition, a Vertical Attention Network (VAN) is boosted with a Transformer layer in its decoder, providing a powerful integration of long-term dependencies and contextual relations, enhancing its accuracy in character and word recognition. With a character error rate (CER) of 0.1913 and a word error rate (WER) of 0.0557, our model outperforms baseline architectures such as TrOCR, HTR-VT, and SimpleHTR, and enables its capacity for dealing with long-term dependencies and contextual relations, enhancing its accuracy in character and word recognition. The results of this research highlight the potential of modern architectures such as vision transformers and hybrid LSTM-transformer models to address the challenges of handwritten text recognition. By providing a robust dataset and innovative solutions, this thesis contributes to the advancement of HTR for low-resource languages, paving the way for future research and practical applications.
Benzer Tezler
- Mamografi görüntülerinde meme kanserinin belirlenmesi için evrişimli sinir ağı modellerinin performanslarının incelenmesi
Examining the performance of convolutional neural network models for detecting breast cancer in mammography images
BÜŞRA KURT
Yüksek Lisans
Türkçe
2025
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. JALE KARAKAYA KARABULUT
- A comparative study of deep learning based face recognition algorithms for video under adverse conditions
Derin öğrenme tabanlı yüz tanıma yöntemlerinin zorlayıcı koşullar altındaki videolar için performans karşılaştırılması
GALİP PALA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ÇİĞDEM EROĞLU ERDEM
- Enhancing matrix factorization-based recommendation systems: A comparative study on trip recommendation systems
Matris çözümlemesi tabanlı öneri sistemlerinin geliştirilmesi: Seyahat öneri sistemleri üzerine karşılaştırmalı bir çalışma
ABDULLAH UĞUR MAT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE NURDAN SARAN
- Parkinson's disease diagnosis by using autoencoder based on deep neural network (DNN) and metaheuristic method
Derin sinir ağına dayalı otokodlayıcı ve metasezgisel yöntem ile parkinson hastalığının teşhisi
BEYHAN GERGERLİ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATİH VEHBİ ÇELEBİ
- Evaluating performance of large language models in bluff-based card games: A comparative study
Blöf temelli kart oyunlarında büyük dil modeline ait performans değerlendirilmesi: Karşılaştırmalı bir çalışma
İREM ŞALK
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
PROF. DR. SANEM SARIEL UZER