Osmanlıca el yazması belgeler için derin öğrenme tabanlı karakter tanıma yöntemi
Deep learning based character recognition method for Ottoman manuscript documents
- Tez No: 905206
- Danışmanlar: DR. ÖĞR. ÜYESİ UFUK ÖZKAYA
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 116
Özet
Bu çalışmada Osmanlıca el yazması ve matbu dokümanlardaki karakterlerin tanınmasına yönelik bir derin öğrenme modeli geliştirilmiş ve geliştirilen yöntemin Osmanlıca karakter tanıma performansı çeşitli deney senaryoları ile değerlendirilmiştir. Osmanlıca yazılı metinlerin dijitalleştirilmesi, kültürel mirasın korunması ve araştırmacılara daha kolay erişim sağlanması açısından büyük önem taşımaktadır. Ancak, Osmanlıca el yazması karakterler hem karmaşık yapıları hem de yazı stillerindeki çeşitlilik nedeniyle karakter tanıma süreçlerinde önemli zorluklar ortaya çıkarmaktadır. Bu tez çalışmasında, bu zorlukların üstesinden gelmek, yüksek doğruluk oranı ile karakter tanıyabilmek için uygun derin öğrenme mimarileri ve çeşitli eğitim stratejilerinin geliştirilmesine odaklanılmaktadır. Tez çalışmasında Osmanlıca karakter tanıma problemi bir nesne tespit problemi olarak ele alınmış ve bu problemi çözebilmek için nesne tespiti tabanlı bir yöntem geliştirilmiştir. Çalışma kapsamında biri Osmanlıca el yazması dokümanlardan, diğeri ise Osmanlıca matbu dokümanlardan oluşan iki adet veri kümesi oluşturulmuştur. Veri kümesinin oluşturulmasında, dokümanların yüksek çözünürlüklü taramalarından elde edilen görüntüler kullanılmış ve bu görüntüler üzerinde karakter etiketleme işlemleri gerçekleştirilmiştir. Oluşturulan veri kümeleri hem el yazması hem de matbu Osmanlıca dokümanlarda karakter tanıma performansını değerlendirmek için kullanılmıştır. Önerilen yöntemin performansı, literatürde yaygın olarak kullanılan Faster R-CNN ve SSD gibi nesne tespiti yöntemleri ile karşılaştırılmıştır. Sonuçlar, önerilen yöntemin özellikle matbu dokümanlar üzerinde yüksek doğruluk oranları elde ettiğini göstermektedir. Tez çalışmasında farklı eğitim ve test stratejilerinin model performansına etkisi de değerlendirilmek istenmiştir. Bunun için, Osmanlıca matbu ve el yazması dokümanlar üzerinde çeşitli eğitim senaryoları uygulanmıştır. SC-1 olarak adlandırılan senaryoda, önerilen yöntem, Osmanlıca matbu dokümanlarda %98.49 wAP değeri ile oldukça üstün bir performans sergilemiştir. Bu senaryoda Faster R-CNN modeli %72.40 wAP değeri elde ederken, SSD modeli sadece %10.64 wAP değeri ile sınırlı kalmıştır. Bu durum, önerilen yöntemin matbu dokümanlarda karakter tanıma açısından mevcut yöntemlere kıyasla çok daha etkili olduğunu göstermektedir. SC-2 senaryosunda ise Osmanlıca el yazması dokümanlar üzerinde yapılan deneyler, önerilen yöntemin %95.78 wAP değeri ile başarılı bir performans sergilediğini göstermiştir. Bu senaryoda Faster R-CNN %96.87 wAP değeri ile önerilen yönteme benzer bir performans göstermiştir. SC-3 senaryosu kapsamında hem matbu hem de el yazması veri kümeleri kullanılarak model eğitilmiş ve bu modelin her iki veri kümesi üzerindeki performansı detaylı bir şekilde incelenmiştir. Sonuçlar, karma veri kümeleri ile eğitilen modellerin her iki doküman türü üzerinde de kabul edilebilir bir performans sergilediğini, ancak özellikle el yazması dokümanların içerdiği çeşitlilik ve karmaşıklığın karakter tanıma problemini daha da zorlaştırdığını göstermiştir. Ancak, SC-4 senaryosunda elde edilen sonuçlar, sadece el yazması dokümanlarla eğitilen modellerin matbu dokümanlar üzerindeki performansının sınırlı kaldığını ortaya koymuştur. Bu senaryoda önerilen yöntem matbu dokümanlar üzerinde %66.41, Faster R-CNN modeli %53.12 wAP değeri elde ederken, SSD modeli yalnızca %9.09 wAP değeri elde edebilmiştir. Geliştirilen modelin bileşenlerinin modelin karakter tanıma performansı üzerindeki etkilerinin incelenebilmesi için bir dizi ablasyon çalışması yapılmıştır. Ablasyon çalışmasında ilk olarak, modelin omurga yapısının modelin performansına etkisi incelenmiştir. Bu amaçla, CSP-DarkNet53 ve Tiny-YOLO gibi farklı omurga yapıları kullanılarak çeşitli deneyler gerçekleştirilmiştir. CSP-DarkNet53 ağı bir tür evrişimsel sinir ağı olup daha derin ve karmaşık bir mimariye sahiptir. Yapılan deneylerde, CSP-DarkNet53 ağının, özellikle daha zorlayıcı karakter tanıma görevlerinde daha yüksek wAP değerleri elde ettiği gözlemlenmiştir. Buna karşın, Tiny-YOLO omurgası, daha az hesaplama maliyeti gerektirmesine rağmen, daha düşük performans sergilemiş ve özellikle karmaşık karakter yapılarını tanımada yetersiz kalmıştır. Bu bulgular, derin öğrenme modelinin mimari yapısının, karakter tanıma sürecinde büyük bir öneme sahip olduğunu ortaya koymaktadır. İkinci olarak, modelin giriş boyutunun performans üzerindeki etkisi detaylı bir şekilde analiz edilmiştir. Çalışmada başlangıçta 608×1152×3 olarak belirlenen giriş boyutu, daha düşük bir çözünürlük olan 320×576×3 boyutuna indirilmiş ve performans değişimleri incelenmiştir. Bu giriş boyutunun küçültülmesi, modelin performansında belirgin bir düşüşe neden olmuş ve genelleme kapasitesini olumsuz etkilemiştir. Bu durum, Osmanlıca el yazması karakterlerin tanınmasında, yüksek çözünürlüklü doküman imgelerinin önemini vurgulamaktadır. Tez kapsamında gerçekleştirilen bir diğer ablasyon çalışmasında veri çoğaltma tekniklerinin model performansına etkisi incelenmiştir. Veri çoğaltma tekniklerinin, özellikle sınırlı veri kümeleri üzerinde çalışan modellerin performansını artırmada önemli bir rol oynadığı tespit edilmiştir. Veri çoğaltma, modelin daha geniş bir veri çeşitliliğiyle eğitilmesini sağlayarak genelleme yeteneğini artırmakta ve aşırı öğrenmeyi önlemektedir. Ayrıca, Osmanlıca el yazması dokümanların zorlu ve çeşitli yapısına uyum sağlamada modelin performansını iyileştirdiği ortaya konulmuştur.
Özet (Çeviri)
In this study, a deep learning model for character recognition in Ottoman manuscripts and printed documents is developed and the performance of the developed method for Ottoman character recognition is evaluated with various experimental scenarios. The digitization of Ottoman manuscripts is of great importance for preserving cultural heritage and providing easier access to researchers. However, Ottoman manuscript characters pose significant challenges in character recognition processes due to their complex structure and diversity in writing styles. In this thesis, we focus on the development of appropriate deep learning architectures and various training strategies to overcome these challenges and to achieve high accuracy in character recognition. In this thesis, the Ottoman character recognition problem is considered as an object detection problem and an object detection-based method is developed to solve this problem. Within the scope of the study, two datasets were created, one consisting of Ottoman manuscript documents and the other consisting of Ottoman printed documents. In the creation of the dataset, images obtained from high-resolution scans of the documents were used and character labeling operations were performed on these images. The datasets were used to evaluate the character recognition performance of both manuscript and printed Ottoman documents. The performance of the proposed method is compared with object detection methods such as Faster R-CNN and SSD, which are widely used in the literature. The results show that the proposed method achieves high accuracy rates, especially on printed documents. In this thesis, the effect of different training and testing strategies on model performance is also evaluated. For this purpose, various training scenarios were applied on Ottoman printed and manuscript documents. In the scenario called SC-1, the proposed method performed very well with 98.49% wAP on Ottoman printed documents. In this scenario, the Faster R-CNN model achieved 72.40% wAP, while the SSD model was limited to only 10.64% wAP. This shows that the proposed method is much more effective than the existing methods in terms of character recognition in printed documents. In the SC-2 scenario, the experiments on Ottoman manuscript documents showed that the proposed method performed well with 95.78% wAP. In this scenario, Faster R-CNN performed similar to the proposed method with 96.87% wAP. In the SC-3 scenario, the model is trained using both printed and manuscript datasets and the performance of this model on both datasets is analyzed in detail. The results show that the models trained with combined datasets perform acceptably on both types of documents, but the diversity and complexity of manuscript documents in particular make the character recognition problem more challenging. However, the results obtained in the SC-4 scenario show that the performance of the models trained with only manuscript documents is limited on printed documents. In this scenario, the proposed method achieved 66.41% wAP on printed documents, the Faster R-CNN model achieved 53.12% wAP, while the SSD model achieved only 9.09% wAP. In order to examine the effects of the components of the developed model on the character recognition performance of the model, a series of ablation studies were performed. In the ablation study, firstly, the effect of the backbone structure of the model on the performance of the model was examined. For this purpose, various experiments were performed using different backbone structures such as CSP-DarkNet53 and Tiny-YOLO. CSP-DarkNet53 network is a type of convolutional neural network and has a deeper and more complex architecture. In the experiments, it was observed that the CSP-DarkNet53 network achieved higher wAP values, especially in more challenging character recognition tasks. In contrast, the Tiny-YOLO backbone, despite requiring less computational cost, performed poorly and was particularly inefficient in recognizing complex character structures. These findings suggest that the architecture of a deep learning model is of great importance in the character recognition process. Secondly, the effect of the input size of the model on performance was analyzed in detail. In the study, the input size, which was initially set as 608×1152×3, was reduced to a lower resolution of 320×576×3 and the performance changes were analyzed. Reducing this input size caused a significant decrease in the performance of the model and negatively affected its generalization capacity. This highlights the importance of high-resolution document images in the recognition of Ottoman manuscript characters. In another ablation study conducted within the scope of this thesis, the effect of data augmentation techniques on model performance was analyzed. It was found that data augmentation techniques play an important role in improving the performance of models, especially those running on limited datasets. Data augmentation allows the model to be trained with a wider variety of data, increasing its generalization ability and preventing overlearning. It has also been shown to improve the performance of the model in adapting to the challenging and diverse nature of Ottoman manuscript documents.
Benzer Tezler
- Üsküplü Abdülfettah Rauf'un şiirlerindeBalkan tarihi, coğrafyası ve kültürü
Başlık çevirisi yok
ELİF NAZİM
Yüksek Lisans
Türkçe
2024
Türk Dili ve EdebiyatıMarmara ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. MEHMET GÜNEŞ
- Osmanlı Devleti Dönemi'nde Yabancı Dil Öğretimi: Robert Koleji örneği
Foreign Language Education In Ottoman Empire Era: Robert College sample
SALİH POTUKOĞLU
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimÇankırı Karatekin ÜniversitesiTarih Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RECEP BÜYÜKTOLU
- Üsküdarlı İbrahim Sırrî Efendi'nin târîh-i Sultan Mustâfâ-i Sâni adlı eseri'nin transkripsiyonu ve nüshalarının karşılaştırması
Transcription and copy comparison of the book 'History of the Sultan Mustafa-i Sâni' belonged to Üsküdarli İbrahim Sirrî
BÜNYAMİN ARAS
Yüksek Lisans
Türkçe
2019
TarihNevşehir Hacı Bektaş Veli ÜniversitesiTarih Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RÜMEYSA KARS
- From damascus to Istanbul: Relocating The damascus documents within the framework of late ottoman museum and archive policies
Şam'dan Istanbul'a: Geç Dönem Osmanlı müze ve arşiv politikaları kapsamında Şam Evrakı'nın yeniden konumlandırılması
AYŞE HÜMEYRA DEMİRCİ
Yüksek Lisans
İngilizce
2024
Tarihİstanbul Medeniyet ÜniversitesiUluslararası Osmanlı Çalışmaları Ana Bilim Dalı
DOÇ. DR. MUHAMMED TALHA ÇİÇEK
PROF. DR. BİLGİN AYDIN
- Tire Necip Paşa Kütüphanesi'ndeki, Necip Paşa Vakfına ait el yazma eserlerin çarkuşe, yekşah, ve zilbahar cilt kapağı özelliklerine göre kataloglanması
Cataloguing the manuscripts belonging to the Necip Paşa foundation in the library of tire Necip Paşa according to the bookbinding techniques of çarkuşe, yekşah and zilbahar
MEHMET KÜÇÜK
Yüksek Lisans
Türkçe
2008
El SanatlarıSakarya ÜniversitesiGeleneksel Türk El Sanatları Ana Bilim Dalı
PROF. DR. AYŞE ÜSTÜN