Geri Dön

A rule-based approach for metadata extraction from bank documents

Banka belgelerinden meta veri çekimi için kural bazlı yaklaşım

  1. Tez No: 760375
  2. Yazar: MOHAMED AMIN ABDISAMAD
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ALEV MUTLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Aktüerya Bilimleri, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Actuarial Sciences, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Bilgi Alma, Üst Veri Çıkarma, Kural Tabanlı Yaklaşım, Düzenli Ifadeler, Veri Madenciliği
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 45

Özet

Veriler hakkındaki önemli bilgileri özetlemesi, bir dokümanının bulunması ve üzerinde çalışılmasını kolaylaştırdığı için üstveri önemlidir. Her ne kadar dijital büyük veri yığınlarından başlık, yazar ve yayımlanma tarihi gibi üstverilerin otomatik olarak çıkarılması zor bir problem olsa da çözüm olarak önerilen bazı yöntemler mevcuttur. Bunlar arasında kural tabanlı ve Destek Vektör Makineleri ve Saklı Markov Modelleri sıklıkla kullanılan yöntemlerdir. Yakın zamanda derin öğrenme modelleri de bu amaçla kullanılmaya başlanmıştır. Bu çalışmada Türkçe banka dokümanları üzerine çalışılmış ve kural tabanlı bir üstveri çıkarım sistemi sunulmulmaktadır. Daha spesifik olarak, Türkçe banka dokümanlarından başlık, tarih, referans numarası, kurum adı ve belge türünü çıkarmak için kural tabanlı bir yaklaşım önerilmiştir. 579 belge üzerinde yapılan deneyler, önerilen yaklaşımın meta verilerin %80'sini doğru şekilde çıkardığını gösterdi.

Özet (Çeviri)

Metadata is significant because it summarizes fundamental information about the data and helps finding and working with a specific instance of the data easier. While automatically extracting metadata such as title, authors, and publication date from a large collection of digital documents is still tough, there are several methods that might be used to accomplish this. Rule-based and machine learning-based techniques, such as SVM and HMM, are the most common. Nowadays, deep learning models have also been applied to this aim. In this study, we focus on extracting metadata from Turkish bank documents and propose a rule-based approach. More specifically, we propose a rule-based approach to extract title, date, reference number, institution name, and document type from Turkish bank documents. Experiments conducted on 579 documents showed that the proposed approach extracted 80% of the metadata correctly.

Benzer Tezler

  1. Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems

    Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması

    AHMED RAOOF NASSER NASSER

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

  2. Developing machine learning methods for business intelligence

    İş zekası için makine öğrenmesi yöntemlerinin geliştirilmesi

    KADER MONHAMADY KABORE

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ZAFER AYDIN

  3. Automated semantic tagging of text documents

    Metin belgelerinin otomatik olarak anlamsal etiketlenmesi

    MURAT KALENDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. SUZAN ÜSKÜDARLI

  4. Anlambilimsel örün teknolojilerine dayalı bireyselleştirilmiş öğretim sistemi tasarımı

    Design of a personalized learning system based on semantic web technologies

    FUNDA DAĞ

    Doktora

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Elektrik Eğitimi Ana Bilim Dalı

    PROF. DR. KADİR ERKAN

  5. Ontoloji tabanlı bir müşteri yönetimi sisteminin geliştirilmesi

    Development of an ontology based customer management system

    MUHAMMET ATALAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇanakkale Onsekiz Mart Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ MURAT TİRYAKİ