Geri Dön

Information extraction from scanned invoice documents using deep learning methods

Derin öğrenme yöntemleri kullanılarak, taratılmış fatura dökümanlarından bilgi çıkarımı

  1. Tez No: 815836
  2. Yazar: UFUK İLKE AVCI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ DIONYSIS GOULARAS
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Yeditepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Bu tezde, düğüm sınıflandırma ve sıralı etiketleme görevleri için bir Graf Konvolüsyonel Ağı (GCN) modeli ile iki dönüştürücü tabanlı model arasında kapsamlı bir karşılaştırma yapıldı. Bu derin öğrenme modelleri, fatura belgelerinden bilgi çıkarmak üzere eğitildi, böylece bu tür verilerin otomatik işlenmesinin iyileştirilmesi amaçlandı. 1000 faturalık bir veri seti modellerin eğitiminde kullanılırken, performanslarını değerlendirmek için 250 faturalık ayrı bir veri seti kullanıldı. Sonuçlar, dönüştürücü tabanlı modellerden birinin GCN modelinden daha iyi sonuçlar elde ettiğini gösterdi. LayoutLMv1 modeli için F1-puanı 0.65 ve LayoutLMv3 modeli için 0.72 elde edilirken, GCN modeli için bu değer 0.32 oldu. Bu çalışmanın sonuçları, taranmış fatura belgelerinden bilgi çıkarma görevlerinde dönüştürücü tabanlı sinir ağı modellerinin etkinliğini ve transformerlar ile graf konvolüsyonel ağların bu görevdeki başarısını göstermektedir.

Özet (Çeviri)

In this thesis, a comprehensive comparison was conducted between a Graph Convolutional Network (GCN) model and two transformer based models for the tasks of node classification and sequence labeling respectively. These deep learning models were trained to extract information from invoice documents, with the aim of improving the automated processing of such data. A dataset of 1000 invoices was utilized for training the models, while a separate dataset consisting of 250 invoices was employed for evaluating their performance. The results showed that the one of the transformer based models achieved better results than GCN model, by achieving an F1-score of 0.65 for LayoutLMv1 model and 0.72 for LayoutLMv3 model, compared to the GCN model's 0.32. The results of this study shows the effectiveness of transformer based neural network models in information extraction tasks from scanned invoice documents and provide information about success of transformers and graph convolutional networks for this task.

Benzer Tezler

  1. Taranmış gazete koleksiyonu üzerinde tam metin arama ve görselleştirme aracı

    Full-text search and visualization tool on scannednewspaper collection

    HASAN BASRİ ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN EKEN

  2. Kinolin esaslı D-π-A-π-A bileşiklerinin boya duyarlı güneş hücrelerinde uygulamaları

    Applications of D-π-A-π-A quinoline compounds for dyesensitized solar cells

    SAADET SEVİNDİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    KimyaSakarya Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. İLKAY ŞİŞMAN

  3. Türkiye'nin uçucu yağ bitkileri veritabanı

    Database of essential oil plants of Turkey

    DAMLA MADENCİOĞLU DİRİCAN

    Doktora

    Türkçe

    Türkçe

    2023

    BotanikEge Üniversitesi

    Farmasötik Botanik Ana Bilim Dalı

    DOÇ. DR. BİNTUĞ ÖZTÜRK

  4. Laser-based structural sensing and surface damage detection

    Lazer tabanlı yapısal algılama ve yüzey hasar tespiti

    BURCU GÜLDÜR ERKAL

    Doktora

    İngilizce

    İngilizce

    2014

    İnşaat MühendisliğiNortheastern University

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. JEROME F. HAJJAR

  5. Doküman kategorizasyonu ve imza bölge analizi

    Document categorization and signature region analysis

    İLKHAN CÜCELOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    BankacılıkBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL