Geri Dön

Derin öğrenme yaklaşımıyla fatura görüntülerinden bilgi çıkarma algoritmaları ve uygulamaları

Information extraction algorithms and applications from the invoice images using a deep learning approach

  1. Tez No: 675759
  2. Yazar: ADEM AKDOĞAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ RESMİYE NASİBOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 102

Özet

Fatura, fiş, dekont ve benzeri şirket dokümanlarının dijitalleştirilmesi, gelişen teknoloji ile yaygınlaşmıştır. Fiziksel evrakların muhafaza ve idare işlemleri dijital evraklara göre oldukça zor olduğu için şirketler evraklarını dijital ortama taşımaya başlamışlardır. Ayrıca muhasebe işlemlerinin yoğun olduğu dönemlerde klasik yöntemler ile faturaların işlenmesi yoğun insan gücü gerektiren, maliyetli bir sürece neden olmaktadır. Dijitalleşme süreciyle birlikte fatura işleme yöntemleri de makineler yardımıyla gelişmeye başlamıştır. Bu tez kapsamında yapay zeka teknikleri kullanılarak faturaların hızlı, doğru ve daha az kaynak ile işlenme süreci ele alınmıştır. Öncelikle görüntü formatındaki faturalar, belirli görüntü işleme süreçlerinden sonra optik karakter tanıma motoru olan Tesseract ile yazı formuna çevrilir. Çoklu N-gram yapıları kullanılarak tahmin edilmek istenen etiketli verilerin oluşturulması sağlanır. Oluşturulan N-gramların öznitelikleri belirlenir. Bu aşamada eğitim için önemli olan kelime uzaklıklarını belirleme algoritmalarından Levenshtein ve Jaro-Winkler yöntemleri karşılaştırılmalı olarak değerlendirilir. Son olarak eğitim yaptırılarak elde edilen sonuçlar değerlendirilir. Eğitimde Rassal Orman (Random Forest), Gradyan Yükseltme Makinesi (Gradient Boosting Machine), Aşırı Gradyan Artırma (Extreme Gradient Boosting), K-En Yakın Komşu (K-Nearest Neighbors), AdaBoost, Karar Ağacı (Decision Tree) modelleri kullanılmıştır. Derin öğrenme kısmında ise evrişimsel sinir ağları kullanılmıştır. Toplamda 9910 adet fatura ile eğitim ve test işlemleri gerçekleştirilmiştir. Eğitimler neticesinde fatura numarası için 0,97, fatura tarihi için 0,97, ödeme tarihi için 0,88, teslimat tarihi için 0,76, toplam tutar için 0,93, net tutar için 0,89, vergi tutarı için 0,92, IBAN için 0,99 ve vergi numarası için 0,99 olarak F1 skor değerleri elde edilmiştir.

Özet (Çeviri)

The digitization of invoices, receipts and similar company documents has become very common with the rapid development in technology. Since the preservation and management processes of physical documents are much more difficult than digital documents, companies have started to digitalize their documents. In addition, the processing of invoices using classical methods is a costly process that requires great manpower during periods of intensive accounting. With the digitalization process, invoice processing methods have also started to develop with the help of machines. In this wok, how to process invoices faster, more accurately and with less resources by using artificial intelligence techniques is discussed. First of all, invoices in image format are converted to text with Tesseract that is an optical character recognition engine. The labeled data is created by using multiple N-gram structures. The attributes of the created N-grams are determined. At this stage, Levenshtein and Jaro-Winkler methods, which are important algorithms for determining word distances are evaluated comparatively. Finally, the results obtained by training are evaluated. The models were used in the training such as Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting, K-Nearest Neighbors, AdaBoost and Decision Tree. The convolutional neural networks are used as a deep learning model. The training and testing carried out with a total of 9910 invoices. As a result of the trainings, the F1 score values were obtained such as 0.97 for the invoice number, 0.97 for the invoice date, 0.88 for the due date, 0.76 for the delivery date, 0.93 for the total amount, 0.89 for the net amount, 0.92 for the vat amount, 0.99 for the IBAN and 0.99 for the sender vat number.

Benzer Tezler

  1. Early diagnosis of epileptic seizures over EEG signals using deeplearning approach

    Derin öğrenme yaklaşımıyla epilepsi nöbetlerinin EEG sinyalleri üzerinden erken teşhisi

    EZGİ ÖZER

    Doktora

    İngilizce

    İngilizce

    2023

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. OZAN KOCADAĞLI

    PROF. DR. ARNALDO BATISTA

  2. Derin öğrenme yaklaşımıyla gerçek zamanlı görüntüler üzerinde tehlikeli nesne tespiti

    Detection of dangerous objects in real-time images using a deep learning approach

    ŞUAYİP AYKUT ATMACA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiBursa Uludağ Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BURCU ÇAĞLAR GENÇOSMAN

  3. Alüminyum döküm hatalarının derin öğrenme yaklaşımıyla tespiti ve sınıflandırılması

    Detection and classification of aluminum casting defects by deep learning approach

    İSMAİL ENES PARLAK

    Doktora

    Türkçe

    Türkçe

    2022

    Endüstri ve Endüstri MühendisliğiBursa Uludağ Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ERDAL EMEL

  4. Ultrason görüntülerinde derin öğrenme yaklaşımıyla süper çözünürlük

    Ultrasound image super resolution with deep learning approach

    HAKAN TEMİZ

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. HASAN ŞAKİR BİLGE

  5. Gen ifadesi verilerinden derin öğrenme yaklaşımıyla genler arası dolaylı etkileşimlerin ortaya çıkarılması

    Discovery of indirect interactions between genes by deep learning using gene expression data

    GÜLCE ÇELEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyomühendislikYıldız Teknik Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    DOÇ. DR. ALPER YILMAZ