Geri Dön

Resim tabanlı osmanlıca belgelerde sınıflandırma

Classification of image-based ottoman records

  1. Tez No: 352453
  2. Yazar: RAMAZAN PEHLİVAN
  3. Danışmanlar: YRD. DOÇ. DR. LEVENT ÇUHACI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: İstanbul Kültür Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Bilgisayar Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Bu çalışmanın amacı resim formatındaki Osmanlıca belgeleri içeriklerine göre sınıflandıran bir model ortaya koymaktır. Bu amaçla resim formatında taranmış Osmanlıca matbu belgelerde, ''Görüntü İşleme'', ''Kümeleme'' ve ''Doğal Dil İşleme'' tekniklerini birlikte kullanarak ''Doküman Sınıflandırma'' yapan etkin bir sınıflandırma yöntemi önerilmiştir. Çalışmamızda veri olarak Türkiye Büyük Millet Meclisi (TBMM) Kütüphane ve Arşiv Hizmetleri Başkanlığı'nın resmi web sitesinden alınan Osmanlıca belge örnekleri seçilmiştir. Görüntü işleme teknikleriyle belgeler sayısal forma dönüştürülmüş, ardından satırlar ve satırlardaki kelime ya da harf grupları tespit edilmiş ve her bir harf grubu ayrı birer resim olarak kaydedilmiştir. Resimler arasında kümeleme yapılarak aynı (ya da benzer) harf grupları aynı kümeye atanmıştır. Harf gruplarının ait oldukları küme bilgileri kullanılarak bu belgelerin, birbirini izleyen etiket numaralarını içeren metin formatındaki karşılıkları elde edilmiştir. Bu aşamadan sonra doküman sınıflandırma alanında geçerli bir teknik olan kelime frekans analizi, elde ettiğimiz dönüştürülmüş metin dosyalarında küme frekans analizi olarak uygulanmıştır. Sonuç olarak; resim formatında taranmış Osmanlıca belgeler; semantik analize tabi tutulmadan, belgeyi oluşturan harf gruplarının benzerlik ölçütleri baz alınarak sınıflandırılmıştır. Proje MATLAB ortamında geliştirilmiş ve bir makine öğrenmesi uygulaması olan WEKA programında sınıflandırma sonuçları elde edilmiştir. Ayrıca aynı veri seti üzerinde kelime frekans analizine dayalı bir doküman sınıflandırma uygulaması da gerçeklenmiştir.

Özet (Çeviri)

Aim of this work is developing a model which classifies image-formatted Ottoman records by their contents. For this purpose, an effective classification method, which conjunctively uses“Image Processing”,“Clustering”and“Natural Language Processing”techniques, is proposed for image-formatted scans of Ottoman printed records. In our work, Ottoman record samples from the official web page of Turkish Grand National Assembly (TBMM) Library and Documentation Center were used as data. Records were converted into digital form via image processing techniques, then words or letter groups in documents were detected and stored separately as individual pictures. By clustering between these pictures, identical (or similar) letter groups were registered to the same cluster. By using cluster information of letter groups, text-formatted counterparts, which include consecutive label numbers, were obtained for records. After that step, word frequency analysis, which is a valid technique in document classification, was used on converted text files as cluster frequency analysis. As a result, image-formatted scans of Ottoman records were classified based on similarity criteria of constituting letter groups, without using semantic analysis. Project was developed on MATLAB environment and classification results were obtained by a machine learning application software, WEKA. Another classification method based on word frequency analysis was also implemented using the same data set.

Benzer Tezler

  1. Segmentation based Ottoman text and matching based kufic image analysis

    Bölütleme tabanlı Osmanlıca metin ve eşleştirme tabanlı kufi resim analizi

    HANDE ADIGUZEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

  2. Turkish welfare state in the neoliberal era:Emergence of class-based citizenship regimes

    Neoliberal çağda Türkiye'de refah devleti: Sınıf tabanlı vatandaşlık rejimlerinin ortaya çıkışı

    MEHMET CANSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Siyasal BilimlerKoç Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    YRD. DOÇ. ÖZLEM ALTAN OLCAY

  3. Tornadoes, severe hail, and their environments in Turkey

    Türkiye'de hortumlar, şiddetli dolu hadiseleri, ve oluştukları çevre koşulları

    ABDULLAH KAHRAMAN

    Doktora

    İngilizce

    İngilizce

    2016

    Meteorolojiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. MİKDAT KADIOĞLU

  4. Osmanlıca eserler üzerinde SIFT algoritması ile mobil uygulama geliştirme

    A mobile application on Ottomans artifacts using SIFT algorithm

    ABDULLAH GÜRSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EDİZ ŞAYKOL

  5. Osmanlıcadan modern Türkçeye uçtan uca aktarım sistemi

    End-to-end conversion system from Ottoman to modern Turkish

    İSHAK DÖLEK

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ATAKAN KURT