Geri Dön

Automatic topic categorization of turkish faxed bank documents in the presence of ocr errors

Türkçe fakslanmış banka belgelerinin okt hataları varlığında otomatik konu sınıflandırması

  1. Tez No: 387390
  2. Yazar: SEÇİL ÖZTÜRK
  3. Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, PROF. DR. MEHMET BÜLENT SANKUR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 113

Özet

The technological advances in the last decades facilitated the easy transfer and storage of huge amounts of scanned soft documents. This improvement brings the challenge of automatically classifying big, unbalanced, multi-class, noisy and relatively short text data, which is the scope of this thesis. This study addresses the real world problem, classifying bank order documents of Yapı Kredi Bank. A corpus of academic paper abstracts, which resembles the original problem in terms of class complexity and document length is also collected and used. Combinations of methods for balancing, pre-processing data, feature extraction, feature selection and classification are discussed in this study. The unbalanced data are balanced by sampling documents randomly or according to their noise and information content. For Optical Character Recognizer errors, first the word is assessed as corrigible or incorrigible in terms of its potential to be corrected. For corrigible words, four methods are used for correction, which are domain specific glossary based model, language model based Hidden Markov Model and normal or agressive sequential correction models. In order to minimize redundant data, Named Entity tagging, Morfessor and F5 stemming are used. Latent Dirichlet Allocation and Term Frequency Inverse Document Frequency features are used. To classify balanced classes, the best technique is Term Frequency Inverse Document Frequency features with Support Vector Machines, which is tested and proven for both the Yapı Kredi Bank Orders and Academic Paper Abstracts datasets with up to 92% performance for 12 classes for the Yapı Kredi Bank Orders Dataset.

Özet (Çeviri)

Son yıllardaki teknolojik gelişmeler çok büyük miktarda taranmış elektronik belgenin iletimine ve saklanmasına olanak sağlamıştır. Bu ilerleme, bu tezin konusu olan büyük, düzensiz dağılımlı, çok sınıflı, gürültülü ve göreceli kısa metin verisinin otomatik olarak sınıflandırılması problemini de beraberinde getirmektedir. Bu tez çalışmasında, gerçek bir sorun, Yapı Kredi Bankası'nın bankacılık talimatlarının sınıflandırılması irdelenmiştir. Esas probleme sınıf karmaşıklığı ve belge uzunluğu yönünden benzeyen, akademik makalelerin özetçelerinden oluşan bir bütünce de ayrıca toplanmış ve kullanılmıştır. Bu çalışmada veri dengeleme, ön işleme, öznitelik çıkarma, öznitelik seçme, sınıflandırma yöntemlerinin kombinasyonları tartışılmıştır. Dengesiz veriler belgeleri rastgele veya içerdikleri gürültü ve bilgi miktarına göre örnekleyerek dengelenmiştir. Optik Karakter Tanıyıcı hataları için, önce kelimelerin düzeltilebilme potansiyelleri umutlu veya umutsuz olarak değerlendirilir. Umutlu kelimeleri temizlerken alana özel sözlük tabanlı yöntem, dil modeli tabanlı Saklı Markov Modeli, agresif ve normal ardışık düzeltme olmak üzere dört yöntem kullanılmaktadır. Gereksiz veriden kurtulmak için isim verilmiş varlıkları işaretleme, Morfessor ve F5 kök bulma yöntemleri kullanılmıştır. Saklı Dirichlet Dağıtımı ve Terim Frekansı Ters Belge Frekansı öznitelikleri kullanılmıştır. Dengeli dağılımlı sınıflar için, en iyi yöntemin Terim Frekansı Ters Belge Frekansı öznitelikleri ile Destek Vektör Makinaları sınıflandırıcısı olduğu, hem Yapı Kredi Bankacılık Talimatları hem de Akademik Makale özetçeleri veritabanlarında 12 sınıf için %92'ye varan performans ile kanıtlanmıştır.

Benzer Tezler

  1. A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization

    Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi

    KEREM ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. TUNGA GÜNGÖR

  2. Metin madenciliği tekniklerini kullanarak faaliyet bazlı proje yönetiminde bilgi yönetimi süreçleri için derin öğrenme modeli

    Deep learning model for knowledge management processes in activity based project management using text mining techniques

    ESRA KARASU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERSİN NAMLI

  3. Bilgisayar çevirisi kalitesinin değerlendirmesi yöntemlerinde tutarlılık

    Consistency in the evaluation methods of machine translation quality

    ÖZDEN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Mütercim-TercümanlıkHacettepe Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    PROF. DR. AYMİL DOĞAN

  4. Fiyat karşılaştırmalı ürün arama motoru geliştirme

    Developing product price comparison search engine

    FURKAN GÖZÜKARA

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ZEKİ YETGİN

  5. Web mining issues: Topic finding and focused crawling evaluation

    Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi

    ERAY ULUHAN