A rule-based approach for metadata extraction from bank documents
Banka belgelerinden meta veri çekimi için kural bazlı yaklaşım
- Tez No: 760375
- Danışmanlar: DR. ÖĞR. ÜYESİ ALEV MUTLU
- Tez Türü: Yüksek Lisans
- Konular: Aktüerya Bilimleri, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Actuarial Sciences, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Bilgi Alma, Üst Veri Çıkarma, Kural Tabanlı Yaklaşım, Düzenli Ifadeler, Veri Madenciliği
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 45
Özet
Veriler hakkındaki önemli bilgileri özetlemesi, bir dokümanının bulunması ve üzerinde çalışılmasını kolaylaştırdığı için üstveri önemlidir. Her ne kadar dijital büyük veri yığınlarından başlık, yazar ve yayımlanma tarihi gibi üstverilerin otomatik olarak çıkarılması zor bir problem olsa da çözüm olarak önerilen bazı yöntemler mevcuttur. Bunlar arasında kural tabanlı ve Destek Vektör Makineleri ve Saklı Markov Modelleri sıklıkla kullanılan yöntemlerdir. Yakın zamanda derin öğrenme modelleri de bu amaçla kullanılmaya başlanmıştır. Bu çalışmada Türkçe banka dokümanları üzerine çalışılmış ve kural tabanlı bir üstveri çıkarım sistemi sunulmulmaktadır. Daha spesifik olarak, Türkçe banka dokümanlarından başlık, tarih, referans numarası, kurum adı ve belge türünü çıkarmak için kural tabanlı bir yaklaşım önerilmiştir. 579 belge üzerinde yapılan deneyler, önerilen yaklaşımın meta verilerin %80'sini doğru şekilde çıkardığını gösterdi.
Özet (Çeviri)
Metadata is significant because it summarizes fundamental information about the data and helps finding and working with a specific instance of the data easier. While automatically extracting metadata such as title, authors, and publication date from a large collection of digital documents is still tough, there are several methods that might be used to accomplish this. Rule-based and machine learning-based techniques, such as SVM and HMM, are the most common. Nowadays, deep learning models have also been applied to this aim. In this study, we focus on extracting metadata from Turkish bank documents and propose a rule-based approach. More specifically, we propose a rule-based approach to extract title, date, reference number, institution name, and document type from Turkish bank documents. Experiments conducted on 579 documents showed that the proposed approach extracted 80% of the metadata correctly.
Benzer Tezler
- Large-scale arabic sentiment corpus and lexicon building for concept-based sentiment analysis systems
Kavram-tabanlı duygu analizi sistemleri için büyük ölçekli arapça duygu derlemi ve sözlüğü oluşturulması
AHMED RAOOF NASSER NASSER
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAYRİ SEVER
- Developing machine learning methods for business intelligence
İş zekası için makine öğrenmesi yöntemlerinin geliştirilmesi
KADER MONHAMADY KABORE
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ZAFER AYDIN
- Automated semantic tagging of text documents
Metin belgelerinin otomatik olarak anlamsal etiketlenmesi
MURAT KALENDER
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. SUZAN ÜSKÜDARLI
- Anlambilimsel örün teknolojilerine dayalı bireyselleştirilmiş öğretim sistemi tasarımı
Design of a personalized learning system based on semantic web technologies
FUNDA DAĞ
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiElektrik Eğitimi Ana Bilim Dalı
PROF. DR. KADİR ERKAN
- Ontoloji tabanlı bir müşteri yönetimi sisteminin geliştirilmesi
Development of an ontology based customer management system
MUHAMMET ATALAY
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇanakkale Onsekiz Mart ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALİ MURAT TİRYAKİ