Resim tabanlı osmanlıca belgelerde sınıflandırma
Classification of image-based ottoman records
- Tez No: 352453
- Danışmanlar: YRD. DOÇ. DR. LEVENT ÇUHACI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: İstanbul Kültür Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Bu çalışmanın amacı resim formatındaki Osmanlıca belgeleri içeriklerine göre sınıflandıran bir model ortaya koymaktır. Bu amaçla resim formatında taranmış Osmanlıca matbu belgelerde, ''Görüntü İşleme'', ''Kümeleme'' ve ''Doğal Dil İşleme'' tekniklerini birlikte kullanarak ''Doküman Sınıflandırma'' yapan etkin bir sınıflandırma yöntemi önerilmiştir. Çalışmamızda veri olarak Türkiye Büyük Millet Meclisi (TBMM) Kütüphane ve Arşiv Hizmetleri Başkanlığı'nın resmi web sitesinden alınan Osmanlıca belge örnekleri seçilmiştir. Görüntü işleme teknikleriyle belgeler sayısal forma dönüştürülmüş, ardından satırlar ve satırlardaki kelime ya da harf grupları tespit edilmiş ve her bir harf grubu ayrı birer resim olarak kaydedilmiştir. Resimler arasında kümeleme yapılarak aynı (ya da benzer) harf grupları aynı kümeye atanmıştır. Harf gruplarının ait oldukları küme bilgileri kullanılarak bu belgelerin, birbirini izleyen etiket numaralarını içeren metin formatındaki karşılıkları elde edilmiştir. Bu aşamadan sonra doküman sınıflandırma alanında geçerli bir teknik olan kelime frekans analizi, elde ettiğimiz dönüştürülmüş metin dosyalarında küme frekans analizi olarak uygulanmıştır. Sonuç olarak; resim formatında taranmış Osmanlıca belgeler; semantik analize tabi tutulmadan, belgeyi oluşturan harf gruplarının benzerlik ölçütleri baz alınarak sınıflandırılmıştır. Proje MATLAB ortamında geliştirilmiş ve bir makine öğrenmesi uygulaması olan WEKA programında sınıflandırma sonuçları elde edilmiştir. Ayrıca aynı veri seti üzerinde kelime frekans analizine dayalı bir doküman sınıflandırma uygulaması da gerçeklenmiştir.
Özet (Çeviri)
Aim of this work is developing a model which classifies image-formatted Ottoman records by their contents. For this purpose, an effective classification method, which conjunctively uses“Image Processing”,“Clustering”and“Natural Language Processing”techniques, is proposed for image-formatted scans of Ottoman printed records. In our work, Ottoman record samples from the official web page of Turkish Grand National Assembly (TBMM) Library and Documentation Center were used as data. Records were converted into digital form via image processing techniques, then words or letter groups in documents were detected and stored separately as individual pictures. By clustering between these pictures, identical (or similar) letter groups were registered to the same cluster. By using cluster information of letter groups, text-formatted counterparts, which include consecutive label numbers, were obtained for records. After that step, word frequency analysis, which is a valid technique in document classification, was used on converted text files as cluster frequency analysis. As a result, image-formatted scans of Ottoman records were classified based on similarity criteria of constituting letter groups, without using semantic analysis. Project was developed on MATLAB environment and classification results were obtained by a machine learning application software, WEKA. Another classification method based on word frequency analysis was also implemented using the same data set.
Benzer Tezler
- Segmentation based Ottoman text and matching based kufic image analysis
Bölütleme tabanlı Osmanlıca metin ve eşleştirme tabanlı kufi resim analizi
HANDE ADIGUZEL
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
- Turkish welfare state in the neoliberal era:Emergence of class-based citizenship regimes
Neoliberal çağda Türkiye'de refah devleti: Sınıf tabanlı vatandaşlık rejimlerinin ortaya çıkışı
MEHMET CANSOY
Yüksek Lisans
İngilizce
2013
Siyasal BilimlerKoç ÜniversitesiUluslararası İlişkiler Ana Bilim Dalı
YRD. DOÇ. ÖZLEM ALTAN OLCAY
- Tornadoes, severe hail, and their environments in Turkey
Türkiye'de hortumlar, şiddetli dolu hadiseleri, ve oluştukları çevre koşulları
ABDULLAH KAHRAMAN
Doktora
İngilizce
2016
Meteorolojiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. MİKDAT KADIOĞLU
- Osmanlıca eserler üzerinde SIFT algoritması ile mobil uygulama geliştirme
A mobile application on Ottomans artifacts using SIFT algorithm
ABDULLAH GÜRSOY
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EDİZ ŞAYKOL
- Osmanlıcadan modern Türkçeye uçtan uca aktarım sistemi
End-to-end conversion system from Ottoman to modern Turkish
İSHAK DÖLEK
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ATAKAN KURT