Geri Dön

Derin öğrenme yöntemleriyle görsel, metinsel ve sayfa düzeni özelliklerini kullanarak belge görüntülerinin sınıflandırılması

Classification of document images using visual, textual, and layout features with deep learning methods

  1. Tez No: 920931
  2. Yazar: MELİKE BURCU AYHAN
  3. Danışmanlar: PROF. DR. RİFAT EDİZKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belge Sınıflandırma, Derin Öğrenme, Evrişimsel Sinir Ağları, ViT, ViC NLP, LayoutLMv3, Transformer, Document Classification, Deep Learning, Convolutional Neural Networks, ViT, ViC, NLP, LayoutLMv3, Transformer
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Osmangazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon - Sinyal İşleme Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Dijitalleşmenin hızla artması, belgelerin yönetimi ve sınıflandırılması süreçlerini daha önemli hale getirmiştir. Bu bağlamda, belge sınıflandırma alanında önemli adımlar atılmıştır. Bu tez çalışmasında, belge sınıflandırma alanında görsel özelliklere dayalı evrişimsel yöntemler, görsel özelliklere dayalı Transformer tabanlı yöntemler ve görsel, metinsel ve sayfa düzeni bilgisine dayalı yöntemler altında farklı modellerin performansları karşılaştırılmıştır. Çalışmada, evrişimsel sinir ağları, Transformer tabanlı ViT ve ViC modelleri ile LayoutLMv3 mimarisi kullanılarak kapsamlı bir karşılaştırma yapılmıştır. Bu mimariler, Tobacco-3482 ve RVL-CDIP Small-200 veri setleri üzerinde test edilerek, her bir yöntemin belge sınıflandırma süreçlerindeki etkisi, belge tipindeki etkisi ve başarı oranları değerlendirilmiştir. Tez çalışması, görsel, metinsel ve sayfa düzenine dayalı çok yönlü sınıflandırma yaklaşımlarını bir araya getirerek, belge sınıflandırma alanında özgün bir analiz sunmaktadır. Derin öğrenme yöntemleri arasında LayoutLMv3 modeli ile belge sınıflandırmada %95,78 ile en yüksek doğruluk Tobacco-3482 veri seti üzerinde elde edilmiştir.

Özet (Çeviri)

The rapid increase in digitalization has made document management and classification processes more significant. In this context, substantial advancements have been made in the field of document classification. This thesis compares the performance of different models under three main approaches: convolutional methods based on visual features, Transformer-based methods relying on visual features, and methods incorporating visual, textual, and layout information. A comprehensive comparison was conducted using convolutional neural networks, Transformer-based ViT and ViC models, and the LayoutLMv3 architecture. These architectures were tested on the Tobacco-3482 and RVL-CDIP Small-200 datasets, and the impact of each method on document classification processes, document types, and success rates was evaluated. The thesis offers a unique analysis in the field of document classification by integrating multi-faceted classification approaches based on visual, textual, and layout information. Among deep learning methods, the highest accuracy in document classification was achieved using the LayoutLMv3 model, with a success rate of 95.78% on the Tobacco-3482 dataset.

Benzer Tezler

  1. İçerik tabanlı görüntü erişimi ile uzaktan algılama verilerinde obje arama

    Object retrieval in remote sensing data using content based imaged retrieval

    ÖZGE TOKMAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. NEBİYE MUSAOĞLU

  2. Object detection with minimal supervision

    Asgari denetim ile nesne tespiti

    BERKAN DEMİREL

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ

    DOÇ. DR. NAZLI İKİZLER CİNBİŞ

  3. Learning based image and video editing

    Öğrenme temelli görüntü ve video düzenleme

    LEVENT KARACAN

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

  4. Derin öğrenme yöntemleriyle medikal görüntü sınıflandırma

    Medical image classification with deep learning methods

    ZEYNEP CANTEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HACER KARACAN

  5. Uydu görüntülerinden alınan halka açık binaların derin öğrenme yöntemleriyle sınıflandırılması ve performans ölçümü

    Classification and performance measurement of public buildings from satellite images with deep learning methods

    ŞEYMA KARABULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Ekobilişim Ana Bilim Dalı

    DOÇ. DR. DERYA AVCI