Automatic topic categorization of turkish faxed bank documents in the presence of ocr errors
Türkçe fakslanmış banka belgelerinin okt hataları varlığında otomatik konu sınıflandırması
- Tez No: 387390
- Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, PROF. DR. MEHMET BÜLENT SANKUR
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 113
Özet
The technological advances in the last decades facilitated the easy transfer and storage of huge amounts of scanned soft documents. This improvement brings the challenge of automatically classifying big, unbalanced, multi-class, noisy and relatively short text data, which is the scope of this thesis. This study addresses the real world problem, classifying bank order documents of Yapı Kredi Bank. A corpus of academic paper abstracts, which resembles the original problem in terms of class complexity and document length is also collected and used. Combinations of methods for balancing, pre-processing data, feature extraction, feature selection and classification are discussed in this study. The unbalanced data are balanced by sampling documents randomly or according to their noise and information content. For Optical Character Recognizer errors, first the word is assessed as corrigible or incorrigible in terms of its potential to be corrected. For corrigible words, four methods are used for correction, which are domain specific glossary based model, language model based Hidden Markov Model and normal or agressive sequential correction models. In order to minimize redundant data, Named Entity tagging, Morfessor and F5 stemming are used. Latent Dirichlet Allocation and Term Frequency Inverse Document Frequency features are used. To classify balanced classes, the best technique is Term Frequency Inverse Document Frequency features with Support Vector Machines, which is tested and proven for both the Yapı Kredi Bank Orders and Academic Paper Abstracts datasets with up to 92% performance for 12 classes for the Yapı Kredi Bank Orders Dataset.
Özet (Çeviri)
Son yıllardaki teknolojik gelişmeler çok büyük miktarda taranmış elektronik belgenin iletimine ve saklanmasına olanak sağlamıştır. Bu ilerleme, bu tezin konusu olan büyük, düzensiz dağılımlı, çok sınıflı, gürültülü ve göreceli kısa metin verisinin otomatik olarak sınıflandırılması problemini de beraberinde getirmektedir. Bu tez çalışmasında, gerçek bir sorun, Yapı Kredi Bankası'nın bankacılık talimatlarının sınıflandırılması irdelenmiştir. Esas probleme sınıf karmaşıklığı ve belge uzunluğu yönünden benzeyen, akademik makalelerin özetçelerinden oluşan bir bütünce de ayrıca toplanmış ve kullanılmıştır. Bu çalışmada veri dengeleme, ön işleme, öznitelik çıkarma, öznitelik seçme, sınıflandırma yöntemlerinin kombinasyonları tartışılmıştır. Dengesiz veriler belgeleri rastgele veya içerdikleri gürültü ve bilgi miktarına göre örnekleyerek dengelenmiştir. Optik Karakter Tanıyıcı hataları için, önce kelimelerin düzeltilebilme potansiyelleri umutlu veya umutsuz olarak değerlendirilir. Umutlu kelimeleri temizlerken alana özel sözlük tabanlı yöntem, dil modeli tabanlı Saklı Markov Modeli, agresif ve normal ardışık düzeltme olmak üzere dört yöntem kullanılmaktadır. Gereksiz veriden kurtulmak için isim verilmiş varlıkları işaretleme, Morfessor ve F5 kök bulma yöntemleri kullanılmıştır. Saklı Dirichlet Dağıtımı ve Terim Frekansı Ters Belge Frekansı öznitelikleri kullanılmıştır. Dengeli dağılımlı sınıflar için, en iyi yöntemin Terim Frekansı Ters Belge Frekansı öznitelikleri ile Destek Vektör Makinaları sınıflandırıcısı olduğu, hem Yapı Kredi Bankacılık Talimatları hem de Akademik Makale özetçeleri veritabanlarında 12 sınıf için %92'ye varan performans ile kanıtlanmıştır.
Benzer Tezler
- A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization
Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi
KEREM ÇELİK
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. TUNGA GÜNGÖR
- Metin madenciliği tekniklerini kullanarak faaliyet bazlı proje yönetiminde bilgi yönetimi süreçleri için derin öğrenme modeli
Deep learning model for knowledge management processes in activity based project management using text mining techniques
ESRA KARASU
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-CerrahpaşaEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERSİN NAMLI
- Bilgisayar çevirisi kalitesinin değerlendirmesi yöntemlerinde tutarlılık
Consistency in the evaluation methods of machine translation quality
ÖZDEN ŞAHİN
Yüksek Lisans
İngilizce
2015
Mütercim-TercümanlıkHacettepe ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. AYMİL DOĞAN
- Fiyat karşılaştırmalı ürün arama motoru geliştirme
Developing product price comparison search engine
FURKAN GÖZÜKARA
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ZEKİ YETGİN
- Web mining issues: Topic finding and focused crawling evaluation
Örün madenciliği konuları: Konu bulma ve odaklanmış arama değerlendirmesi
ERAY ULUHAN
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiY.DOÇ.DR. BERTAN BADUR