Automatic topic categorization of turkish faxed bank documents in the presence of ocr errors

Türkçe fakslanmış banka belgelerinin okt hataları varlığında otomatik konu sınıflandırması

PDF İndir

Tez No: 387390
Yazar: SEÇİL ÖZTÜRK
Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, PROF. DR. MEHMET BÜLENT SANKUR
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 113

Özet

The technological advances in the last decades facilitated the easy transfer and storage of huge amounts of scanned soft documents. This improvement brings the challenge of automatically classifying big, unbalanced, multi-class, noisy and relatively short text data, which is the scope of this thesis. This study addresses the real world problem, classifying bank order documents of Yapı Kredi Bank. A corpus of academic paper abstracts, which resembles the original problem in terms of class complexity and document length is also collected and used. Combinations of methods for balancing, pre-processing data, feature extraction, feature selection and classification are discussed in this study. The unbalanced data are balanced by sampling documents randomly or according to their noise and information content. For Optical Character Recognizer errors, first the word is assessed as corrigible or incorrigible in terms of its potential to be corrected. For corrigible words, four methods are used for correction, which are domain specific glossary based model, language model based Hidden Markov Model and normal or agressive sequential correction models. In order to minimize redundant data, Named Entity tagging, Morfessor and F5 stemming are used. Latent Dirichlet Allocation and Term Frequency Inverse Document Frequency features are used. To classify balanced classes, the best technique is Term Frequency Inverse Document Frequency features with Support Vector Machines, which is tested and proven for both the Yapı Kredi Bank Orders and Academic Paper Abstracts datasets with up to 92% performance for 12 classes for the Yapı Kredi Bank Orders Dataset.

Özet (Çeviri)

Son yıllardaki teknolojik gelişmeler çok büyük miktarda taranmış elektronik belgenin iletimine ve saklanmasına olanak sağlamıştır. Bu ilerleme, bu tezin konusu olan büyük, düzensiz dağılımlı, çok sınıflı, gürültülü ve göreceli kısa metin verisinin otomatik olarak sınıflandırılması problemini de beraberinde getirmektedir. Bu tez çalışmasında, gerçek bir sorun, Yapı Kredi Bankası'nın bankacılık talimatlarının sınıflandırılması irdelenmiştir. Esas probleme sınıf karmaşıklığı ve belge uzunluğu yönünden benzeyen, akademik makalelerin özetçelerinden oluşan bir bütünce de ayrıca toplanmış ve kullanılmıştır. Bu çalışmada veri dengeleme, ön işleme, öznitelik çıkarma, öznitelik seçme, sınıflandırma yöntemlerinin kombinasyonları tartışılmıştır. Dengesiz veriler belgeleri rastgele veya içerdikleri gürültü ve bilgi miktarına göre örnekleyerek dengelenmiştir. Optik Karakter Tanıyıcı hataları için, önce kelimelerin düzeltilebilme potansiyelleri umutlu veya umutsuz olarak değerlendirilir. Umutlu kelimeleri temizlerken alana özel sözlük tabanlı yöntem, dil modeli tabanlı Saklı Markov Modeli, agresif ve normal ardışık düzeltme olmak üzere dört yöntem kullanılmaktadır. Gereksiz veriden kurtulmak için isim verilmiş varlıkları işaretleme, Morfessor ve F5 kök bulma yöntemleri kullanılmıştır. Saklı Dirichlet Dağıtımı ve Terim Frekansı Ters Belge Frekansı öznitelikleri kullanılmıştır. Dengeli dağılımlı sınıflar için, en iyi yöntemin Terim Frekansı Ters Belge Frekansı öznitelikleri ile Destek Vektör Makinaları sınıflandırıcısı olduğu, hem Yapı Kredi Bankacılık Talimatları hem de Akademik Makale özetçeleri veritabanlarında 12 sınıf için %92'ye varan performans ile kanıtlanmıştır.

Benzer Tezler

Tez No
312076
A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization
Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi
KEREM ÇELİK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. TUNGA GÜNGÖR
Tez No
596075
Metin madenciliği tekniklerini kullanarak faaliyet bazlı proje yönetiminde bilgi yönetimi süreçleri için derin öğrenme modeli
Deep learning model for knowledge management processes in activity based project management using text mining techniques
ESRA KARASU
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliği İstanbul Üniversitesi-Cerrahpaşa
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERSİN NAMLI
Tez No
388354
Bilgisayar çevirisi kalitesinin değerlendirmesi yöntemlerinde tutarlılık
Consistency in the evaluation methods of machine translation quality
ÖZDEN ŞAHİN
Yüksek Lisans
İngilizce
2015
Mütercim-Tercümanlık Hacettepe Üniversitesi
Mütercim Tercümanlık Ana Bilim Dalı
PROF. DR. AYMİL DOĞAN
Tez No
317880
Fiyat karşılaştırmalı ürün arama motoru geliştirme
Developing product price comparison search engine
FURKAN GÖZÜKARA
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mersin Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ZEKİ YETGİN
Tez No
188799
Web mining issues: Topic finding and focused crawling evaluation
Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi
ERAY ULUHAN
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Y.DOÇ.DR. BERTAN BADUR

Geri Dön