Geri Dön

A hybrid document segmentation method for Turkish newspaper

Türkçe gazeteler için karma bir bölütleme yöntemi

  1. Tez No: 76456
  2. Yazar: M. FERİDUN AKTAŞ
  3. Danışmanlar: PROF. DR. MEHMET BÜLENT SANKUR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1998
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 109

Özet

Günümüzde bilgilerin büyük bir çoğunluğu kağıtlara basılı olarak bulunmaktadır. Bu belgeler gazete sayfasından resmi yazışmalara, banka makbuzlarından mektup zarflarına kadar değişen bir yelpazede yer almaktadır. Belge işleme sistemlerindeki gelişmeler kağıtlara basılı olan bu bilgilerin elektronik ortamlara taşınmasına olanak vermiştir. Bu bilgileri elektronik ortama taşımak için bazı tanıma, sıkıştırma ve dönüştürme teknikleri kullanılmaktadır. Bu teknikler belgelerin bileşenlerini bulmakta ve onları içeriklerine göre farklı şekillerde işleme tabi tutmaktadır. Belgeler temelde yazı ve resim blokları, çizgiler ve çizimlerden oluşmaktadır. Bu tez, belgelerin bileşenlerini, sonradan işlenmek amacıyla, bulma işlemi üzerinde yoğunlaşmaktadır. Yapılan bu işleme belge anlama adı verilir. Çeşitli belge anlama yöntemleri incelenmiş ve bunlardan biri olan Ardışıl Yatay - Dikey Kesmeler yöntemi iyileştirilip Türkçe gazeteler üzerinde uygulanmıştır. Bu yöntemde belgenin yatay ve düşey izdüşüm eğrileri incelenmekte ve belgenin uygun bir yerine (yatayda veya düşeyde) kesme yerleştirilmektedir. İşlem, ardışıl olarak istenen en küçük boyuttaki blok bulununcaya ya da kesme yerleştirilecek uygunlukta bir yer kalmayıncaya kadar devam etmektedir. Sonuçta tek tür belge bileşeni içeren bloklar elde edilmektedir. Birden fazla belge bileşeni içeren bloklar başka bir bölütleme algoritmasına gönderilmektedir.

Özet (Çeviri)

Today most of the information is conveyed in the form of printed papers. The range of them varies from the newspapers to formal correspondence letters, from banking documents to envelopes etc. The evaluation of document processing systems made it possible to transfer this information from the printed materials to the electronic media. To transfer and archive this information some compression and conversion techniques are used. These techniques extract the document components and process them regarding the content type. Documents are mainly composed of text and image blocks, line and drawings. This thesis is focused on the extraction of document image components for further processing. This operation is known as document analysis. Several document analysis techniques are reviewed and one of them, Recursive X - Y Cut, is modified and applied to the Turkish newspapers. This method recursively analyze the horizontal and vertical projection profile of documents and locate the most appropriate cut (horizontal or vertical) over the documents. The process recursively continues until the smallest desired blocks are found or not any appropriate cut place exists on the document. At the result, blocks that mostly contain single type of document component, are extracted. The blocks, that contains several type of document components, are fed to another segmentation algorithm.

Benzer Tezler

  1. El çizimi diyagramların modifiye destek vektör makineleri ve grid tabanlı su havzası ile tanınması

    Recognition of hand drawn diagrams using modified support vector machines and grid based watershed

    ORHAN NOORULDEEN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OĞUZ ALTUN

  2. A hybrid method for toponym recognition on informal Turkish text

    Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma

    MERYEM KILINÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR KARAGÖZ

  3. Classification using XSLT

    XSLT ile sınıflandırma

    MEHMET ENGİN TOZAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ATAKAN KURT

  4. Soru yanıtlama sistemleri için hibrid makine öğrenmesi tekniklerine dayalı bir yöntem tasarımı ve gerçekleştirimi

    The design and implementation of a method for question answering systems based on hybrid machine learning techniques

    SİNEM ÇINAROĞLU

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN BULUT

  5. Tavsiye sisteminde sıralama ve sınıf kümeleme için bilişsel karşılaştırmalar esaslı bir metot önerisi ve kitap seçim problemine uygulanması

    A cognitive comparison method for sorting and class clustering in recommendation system and implementation of the book selection problem

    SEYİT HAMZA ÇAVGA

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Endüstri ve Endüstri MühendisliğiYıldız Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. İHSAN KAYA