Geri Dön

Neural language modelling approaches for post-ocr text processing

Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları

  1. Tez No: 740823
  2. Yazar: AYŞE İREM TOPÇU
  3. Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

Optik Karakter Tanıma (OKT), bilgisayar ortamında bulunan resimlerdeki metinlerin bazı özel programlar yardımıyla dijital metin haline getirilmesidir. OKT işlemi eski belgeleri ve tarihi kitapları elektronik metne aktarmak için kullanılan etkili ve yaygın bir uygulamadır.Tarihi dökümanları bilgisayar ortamına aktarmak için kullanılan bir diğer yöntem ise manuel transferdir.Fakat manuel transfer işlemi, çok fazla insan gücüne ve zamana ihtiyaç duyduğu olduğu için her zaman tercih edilen bir yöntem değildir. Ayrıca güvenlik açısından da bazı dökümanlara zaman vermektedir. Bu sebeple tarihsel belgelerin otomatize edilerek dijitalleştirilmesi büyük önem taşımaktadır. Tarihsel belgeleri OKT'de işlemenin temel amacı, bu belgeleri korumak ve dünya çapında erişilebilir hale getirmektir. Günümüzde OKT sistemleri 20. yüzyıl belgeleriyle iyi sonuçlar elde etmektedirler çünkü bu dökümanlar okunabilir ve kaliteli sayfalar içermektedirler.Ancak kelime dağarcıkları ve karmaşık sayfa düzenleri nedeniyle tarihi belgelerin doğru bir şekilde tanınması hala çok zordur. Dolayısıyla tarihi belgelerin bu şekilde bilgisayar ortamına aktarılması hatalı metinler üretir ve OKT işleminden sonra mutlaka işleme tabii tutulup metindeki hataların düzeltilmesi gerekir. Hatalı metinler, birçok doğal dil işleme görevinin kalitesini doğrudan etkiler. Belge metnindeki hata seviyesi arttıkça bilgi çıkarımı, metin sınıflandırma, metin özetleme gibi doğal dil işleme görevlerinin başarısı azalır. Bu problemlerin bir sonucu olarak, OKT sonrası metinlerdeki hatalı kelimeleri tespit etme ve düzeltme görevi birçok araştırmacı tarafından ele alınıp çalışılmıştır. OKT sonrası metin hata tespiti ve düzeltme problemine çeşitli yaklaşımlar öne sürülmektedir. Bazı yaklaşımlarda birden fazla OKT modelinin çıktıları birleştirerek metindeki hata olasılığını azaltmak amaçlanır. Fakat; bu tez çalışmasında odaklanılan veri kümesi sadece metinden oluşup gerçek dökümanlara erişim olmadığı için bu yöntem izlenmemiştir. Sözlük tabanlı yaklaşımlar ise metindeki hatalı kelimeleri bulma ve düzeltme konusunda en eski yaklaşımlardan biridir. Geniş kelime dağarcığına sahip bir sözlük seçilerek OKT metnindeki kelimelerden sözlükte olmayanlar tespit edilerek hatalı çevrilen kelimeler bulunur. Fakat bu yaklaşım kelime dağarcığı dışında kalan kelimeleri tespit etme konusunda çok yetersiz kalmaktadır. Bazı araştırmacılar ise OKT sonrası metin düzeltme problemine istatiksel yöntemlerle ele almışlardır.Tek karakterli dönüşümle ilişkilendirilen bir hata modeli geliştirerek yanlış okunan karakterlerin düzeltilmesi için bir önceki karaktere göre belirlenen bir dil modeli geliştirmişlerdir. Makine öğrenmesi yöntemleri geliştikçe OKT sonrası metin düzeltme probleminde kullanılan yöntemler de bu yöne doğru kaymıştır. Bazı araştırmacılar özellik-tabanlı makine öğrenmesi yöntemleriyle çözüm sunmuşlardır. Makine öğrenimi yaklaşımları dizi benzerliği, kelime sıklığı gibi farklı özelliklerden öğrenir, böylece daha sağlam aday seçimi mümkün olur. Bu yaklaşımlar, adaylar oluşturmak, metindeki özellikleri çıkarmak ve istatistiksel bir model kullanarak bunları sıralamak için birden fazla kaynağı araştırır. Sinirsel makine çevirisi ve sinirsel dil modelleri ise OKT sonrası metin işleme problemine günümüzde en iyi sonuçları veren yöntemlerdir. Bu modeller bağlam tabanlı modeller olup, metindeki bağlama göre kelime veya karakter seviyesinde olasılıkları yapay sinir ağlarıyla öğrenmek amaçlanır .Sinirsel makine çevirisi yöntemi tek bir büyük sinir ağı kullanarak kaynak cümleyi doğrudan hedef cümleye dönüştürür. Bu yönteme aynı zamanda Sıradan Sıraya Modeller(Sequence-to-Sequence Models) adı verilmektedir. 2019 ICDAR OKT sonrası metin işleme yarışmasında tüm dillerin test veri kümelerinde en yüksek sonucu elde eden model sinirsel makine çevirisi olup karakter seviyesinde ince ayar yapılmış bir BERT modelidir. Sinirsel dil modelleri ise sinirsel ağ modelleri ile bir alfabeden oluşan diziler üzerindeki olasılık dağılımını öğrenmeye dayalı bir yöntemdir. Maskeli Dil Modeli (Masked Language Modelling) sinirsel dil modellerinden biridir ve cümle içerisinde gizlenmiş bir kelimenin tahminlenmesi görevinde kullanılır. Araştırmacılar tarafından özellikle OKT sonrası metin düzeltme görevi için kullanılmaktadır. Bu tez çalışmasının temel amacı Uluslararası Belge Analizi ve Tanıma Konferansı (ICDAR) 2019 OKT Sonrası Hata Tespit ve Düzeltme yarışmasında sunulan veri kümesi üzerinde daha önce uygulanmamış ve başarısı kanıtlanmış yapay sinir dili modelleme yaklaşımlarını uygulamak ve en iyi yöntemi sunmaktır. Bu yarışmadaki veri kümesi, hem halka açık olması hem de hizalanmış OKT sonrası ve hizalanmış gerçek metni sağlaması nedeniyle bu araştırma için çok uygun bir veri kümesidir. Birçok OKT problemini araştırmasında temel sorun dökümanlardan gerçek metni çıkarmak, sonrasında ise OKT metni ile hizalayabilmektir. Özellikle gerçek metni çıkarmak çok büyük bir insan gücüne ve zamana mal olmaktadır. 2017 ve 2019 yıllarında gerçekleşen ICDAR OKT Sonrası Hata Tespiti ve Düzeltme yarışması bu sorunu ortadan kaldırıp gerçek metinleri kullanıcılara sunduğu için araştırmacılara büyük bir kolaylık sağlayıp, araştırma yöntemlerine daha çok odaklanmalarına yardım etmiştir. Yarışma veri kümesi, birden fazla yabancı dilden oluşan projelerden derlenmiş olup, karşılık gelen gerçek metin ile birlikte 22 milyon OKT karakterlerini içerir. 2019 ICDAR yarışmasının veri kümesi, Europeana Newspapers, IMPACT, Project Gutenberg, Perseus ve Wikisource gibi kaynak projeler olan toplam 14.309 belgeden oluşmaktadır. Bu veri kümesi ICDAR tarafından eğitim ve test veri kümesi olmak üzere ayrı dosyalar olarak sunulmaktadır. Veri kümesi metninde eksik karakterler '@' ile , dikkate alınmaması gereken kelime ve alt-kelime kalıpları ise '#' ile belirtilmiştir. Bu sebeple veri kümesinde model egitilmeden önce yapılan ön-işlemde (preprocess) gerçek metin bu karakterlerden temizlenmiştir. Geri kalan gerçek metin ile OKT metni kelime kelime karşılaştırılarak aynı olan kelimeler“0”(hatasız), farklı olan kelimeler ise“1”(hatalı) olarak etiketlenmiştir. Ayrıca veri kümesindeki belgelerin bir kısmı karmaşık düzene sahip tarihi dökümanlardan oluştugu için bazı belgelerdeki OKT motorlarının metni çıkarma başarısı çok düşük oldugu da tespit edilmiştir. Bu sebeple veri kümesinde bir metin için hizalanmış OKT metni ve gerçek metin arasında Levenshtein mesafe algoritması kullanılarak OKT motorunun metin okuma başarısı eğitim kümesi için yaklaşık olarak hesaplanmıştır. Deneysel olarak belirlenen bir mesafe eşik değeri (\%45) ile yüksek mesafe değerine sahip yani düşük OKT metin başarısına sahip olan metinler eğitim veri kümesine katılmamıştır. Yarışmada OKT sonrası metin hatalarını ortadan kaldırmak için iki ana görev vardır: hata tespiti ve hata düzeltme . Bu tez çalışmasında OKT sonrası metin işleme süreci şu adımlarla ele alınmıştır: hata tespit modeli ile metindeki hatalı kelimeleri tespit edilmesi, hatalı kelimeleri hata düzeltme modeline girdi olarak vermek için“”anahtar kelimesi ile değiştirilmesi ve en iyi aday kelimeyi seçmek için hata düzeltme modelinden alınarak hatalı kelime ile değiştirilmesi. Çalışılan yöntemler ise doğal dil işleme işleme alt görevlerinde yaygın olarak kullanılan benzer mimariye sahip transformatör tabanlı ve daha önce bu veri kümesinde test edilmemiş modellerdir. Bu modeller, Robustly Optimized BERT Pretraining Approach (RoBERTa), Cross-Lingual Language Model RoBERTa (XLM-RoBERTa) ve Data2Vec'dir. Bu modellerin seçilmesinin nedeni, RoBERTa ve XLM modelinin daha önce bu veri kümesi üzerinde test edilmemiş olması ve araştırmalara göre bu modellerin OKT sonrası metin süreçlerinde diğer veri setlerinde kullanılması ve en iyi sonuçların alınmasıdır. Buna ek olarak, ICDAR 2019 İngilizce veri seti Latin monologlarını da içerdiğinden çok dilli bir model seçilip karşılaştırılması uygun görülmüştür. Ayrıca, Meta AI ekibi tarafından geliştirilen son teknoloji ve kendi kendine denetimli öğrenmeye sahip olan, standart bir transformatör mimarisi kullanılarak eğitilen Data2Vec modeli ise en son teknolojiyi önermesi nedeniyle bu araştırma için seçilmiştir. Data2Vec algoritması ses, resim ve metin için çalışan ilk yüksek performanslı kendi kendini denetleyen algoritmadır. Data2vec, üç modalitenin tümü için en gelişmiş (SOTA) sonuçlara ulaşmıştır ve bu nedenle çalışma için seçilmesi uygun görülmüştür. OKT sonrası metin hata tespiti görevine önceki çalışmalardan baz alınarak alt-kelime sınıflandırma (token classification) problemi olarak yaklaşılmıştır. Model her bir kelimeyi parçalarına ayırarak bir sözlük oluşturur. Bu parçalanmış alt-kelimelere token ismi verilir ve her biri ayrı bir vektör ile ilişkilendirilir. Bu görev için önceden eğitilmiş 3 model (“xlm-roberta-base”,“roberta-base”,“data2vec-text-base”) eğitim veri kümesi kullanılarak ince-ayar yapılarak eğitilmiştir. İngilizce veri kümesinde en iyi F1 skoru“xlm-roberta-base”modelinde \%86 elde edilmiştir .Şimdiye kadar elde edilen en iyi sonuç Support Vector Machines (SVM) -Bigram modeli ile \%83 olarak raporlanmaktadır. Bu sonuç ise İngilizce veri kümesinin farklı dillere ait sözcükleri de bulundurmasından dolayı çok dilli bir transformatör model kullanılmasının daha başarılı olacağı sonucunu ortaya koymaktadır. OKT sonrası metindeki hataları düzeltme görevi ise hata tespiti modelinde hatalı olarak işaretlenen kelimelerin hata düzeltme modeline verilmesi ve modelin aday liste kelime önerisinde bulunması şeklinde ilerlemektedir. Bu çalışmada hata düzeltme modeli olarak diğer veri kümeleri üzerinde başarılı sonuçlar elde eden sinirsel dil modeli olan Maskeli Dil Modeli (Masked Language Model) yöntem olarak seçilmiştir. Eğitim aşaması için ise yine önceden eğitilmiş 3 model (“xlm-roberta-base”,“roberta-base”,“data2vec-text-base”) maskeleme dil modeli olarak ince ayar yapılarak eğitilmiştir. Test veri kümesi üzerinde modeller test edilirken ise bir önceki aşamada hatalı olarak işaretlenen sözcükler“”anahtar kelimesi ile değiştirilerek modele girdi olarak verilmiştir. İngilizce veri setinde en iyi sonucu \%11.6 iyileştirme yüzdesi ile RoBERTa tokenizer ile önceden eğitilmiş Data2Vec modeli ile elde edildiği görülmüştür. Bu, ICDAR 2019'daki OKT sonrası metin düzeltme yarışmasının İngilizce veri kümesinde en iyi performans gösteren yaklaşımlarla karşılaştırılabilir en iyi sonuçtur.

Özet (Çeviri)

Optical Character Recognition (OCR) is the process of recognizing text in a digital image. OCR is a common practice for transferring old papers and historical books to electronic text. Manual writing is another way to transfer historical documents to a digital environment. However, manual writing is not a preferred method because it causes a loss of time and effort. The main purpose of processing historical documents into OCR is to maintain them and make them available around the world. Currently, OCR systems obtain good results with 20th-century documents, however, the accurate recognition of historical documents is still challenging because of their vocabulary and complex page layout. This transition of documents produces noisy texts and it should be processed after the OCR operation. Noisy texts directly affect the quality of many natural language processing tasks. The success of information retrieval, text classification, and text summarization tasks decreases as the noise level in a document text increases. As a result of these problems, the task of detecting and correcting erroneous words in post-OCR texts has been studied by many researchers. In this thesis paper, my main purpose is to investigate and apply proven neural language modelling approaches which have not been applied before to the dataset presented in the International Conference on Document Analysis and Recognition (ICDAR) 2019 OCR Post Error Detection and Correction competition to find and correct post-OCR text errors. This dataset is suitable for this research because of the fact that it is publicly available and provides aligned post-OCR and aligned ground truth text. The competition dataset comes from multilingual projects and the corpus includes 22M OCRed characters along with the corresponding Gold Standard (GS). The dataset of the 2019 ICDAR competition is composed of 14,309 documents whose sources are projects such as Europeana Newspapers, IMPACT, Project Gutenberg, Perseus, and Wikisource. There are two main tasks for eliminating the post-OCR text errors in this competition: error detection and error correction. I employed the post-OCR text process with the following steps: detecting the erroneous words in the text with the error detection model, replacing the erroneous words with the“”keyword to give as an input to the error correction model, and selecting the best candidate from error correction model and replace with it. In this research, 3 transformer-based models with similar architecture commonly used in natural language processing algorithm downstream tasks are tested on the ICDAR dataset. These models are Robustly Optimized BERT Pretraining Approach (RoBERTa), Cross-Lingual Language Model RoBERTa (XLM-RoBERTa), and Data2Vec. The reason for choosing these models is that the RoBERTa and XLM model has not been tested on this dataset before, and according to research, these model are applied to other datasets in post-OCR text processes and the best results are obtained. In addition to that, since the ICDAR 2019 English dataset also includes Latin monologues, a multilingual model is selected. Also, the state of art self-supervised learning proposed by Meta AI (formerly known as Facebook) team Data2Vec model has been chosen for this research due to the fact that it is based on a self-distillation setup using a standard Transformer architecture and proposes state-of-the-art (SOTA) results for language, image, and speech. For the error detection task, the best result among the three models is obtained with pretrained XLM-RoBERTa due to the model trained in 100 separate languages. I achieved a %86 of F1-score on the English dataset with tokenizing and fine-tuning on the pretrained“xlm-roberta-base”model and the best result which is obtained so far is %83 with Support Vector Machines (SVM) - Bigram model. For the error correction task, the best result is obtained with a pretrained Data2Vec model with RoBERTa tokenizer. I obtained % an 11.6 improvement percentage on the English dataset. This is the best result comparable to the best-performing approaches on English datasets of the competition on post-OCR text correction in ICDAR 2019.

Benzer Tezler

  1. Deniz ticaret endekslerini zaman serisi modelleri kullanarak tahminleme

    Forecasting maritime trade indexes by using the time series models

    KAAN KOYUNCU

    Doktora

    Türkçe

    Türkçe

    2022

    Denizcilikİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    PROF. DR. LEYLA TAVACIOĞLU

  2. Türkçe eşgönderge çözümlemesi

    Turkish coreference resolution

    TUĞBA PAMAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜLŞEN ERYİĞİT

  3. Quantifying alignment among architectural objects using white-box neural computing

    Beyaz kutu nöral hesaplama kullanarak mimari nesneler arasındaki hizalanmanın ölçülmesi

    OSMAN ZİNNUR MELİKOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    DOÇ. DR. MICHAEL STEFAN BITTERMANN

  4. Dataset cartography for compositional generalization

    Bileşimsel genelleme için veri kümesi haritalama

    OSMAN BATUR İNCE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  5. Sentiment analysis with recurrent neural networks on Turkish reviews domain

    Türkçe yorumlar alanı üzerinde özyineli sınır ağları ile duygu analizi

    DARKHAN RYSBEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    MatematikOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    PROF. DR. ÖMÜR UĞUR