Geri Dön

Derin öğrenme kullanarak el yazılarından bilgi çıkarımı

Extracting information from handwriting using deep learning

  1. Tez No: 756108
  2. Yazar: MEHMET TUTAR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SERDAR ÇİFTÇİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Harran Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 68

Özet

İnsanlık tarihi boyunca; iletişim kurma, karşılıklı anlaşabilme ve bunun yanında bilginin aktarımı amacıyla çeşitli alfabeler geliştirilmiştir. Teknolojinin ilerlemesi ile birlikte günümüzde el yazısı tanıma için farklı öğrenme yöntemleri geliştirilmiştir. El yazısı tanıma yöntemleri geliştirilirken el yazısı veri kümelerine ihtiyaç duyulmuş ve bütün alfabeler için mümkün olmasa da sık kullanılan alfabeler için el yazısı metin ve karakter veri kümeleri oluşturulmuştur. Bu çalışmada hem el yazısı tanıma hem de el yazısından bilgi çıkarımı için yeni ve çok nitelikli bir veri kümesi sunulmuştur. Bu veri kümesi; Latin harflerden oluşan Türk alfabesi kullanılarak farklı yaş aralığında, farklı eğitim seviyesine sahip, farklı hobileri olan bay ve bayan toplam 20 000 katılımcı tarafından el yazısıyla yazılan, küçük harf (29 Sınıf), büyük harf (29 Sınıf) ve rakam (10 Sınıf) olmak üzere 3 farklı türden ve toplam 68 sınıftan oluşmaktadır. Aynı zamanda Türkçe el yazısı karakter örneklerinin bu ölçekteki kamuya açık ilk veri kümesidir. Küçük harfler 580 000 adet, büyük harfler 580 000 adet ve rakamlar 200 000 adet olmak üzere toplam 1 360 000 adet el yazısı karakter içermektedir. 4 farklı nitelikte (cinsiyet, yaş, eğitim ve hobi) toplanmış; cinsiyete göre 2 (bay, bayan), yaş aralığına göre 4 (5-11 yaş arası, 12-19 yaş arası, 20-30 yaş arası, 31-65 yaş arası), eğitim durumuna göre 4 (ilkokul, ortaokul, lise, yüksekokul) ve hobilere göre 8 (kitap, TV, internet, oyun, spor, müzik, resim, gezi) farklı niteliğe ayrılmış Türkçe el yazısı karakter örneklerinin işlenmiş ve etiketlenmiş ilk veri kümesidir. Sunduğumuz veri kümesi, sadece bilgisayar bilimleri alanında değil farklı bilimsel alanlarda çalışma yapan araştırmacılara da katkı verecek niteliktedir. Türkiye'de en geniş katılımcı sayısı ile toplanan el yazısı veri kümesinde bulunan küçük harf, büyük harf ve rakamlara, el yazısı karakter tanıma için bilinen sınıflandırma algoritmaları uygulanmış ve bu yöntemlerin performansları incelenmiştir. Bu çalışmada el yazısı bilgisi ile cinsiyet, eğitim düzeyi, hobi ve yaş grubu bilgisi arasında bir ilişki olup olmadığı araştırılmıştır. Veri kümesi ile yapılan deney sonuçları incelendiğinde; performans başarımı sırasıyla cinsiyet, eğitim durumu, yaş grubu ve hobi durumuna göre olmuştur. Buradan hareketle kişinin cinsiyet bilgisinin el yazısına daha fazla yansıdığı gözlemlenmiştir. Sunmuş olduğumuz veri kümesinde bulunan el yazısı rakamlarla yapılan sınıflandırma performansı, kıyaslama veri kümesi olan MNIST ile karşılaştırılmış ve sonuçları tartışılmıştır.

Özet (Çeviri)

Throughout human history, various alphabets have been developed for communication, mutual understanding, and knowledge transferring. With the advancement of technology, different learning methods have been developed for handwriting recognition. While developing handwriting recognition methods, handwritten datasets were needed, and although it is not possible for all alphabets, some frequently used alphabet's handwritten text and character datasets were created. This study presents a new and highly qualified dataset for handwriting recognition and information extraction from handwriting which consists of three different types with lowercase letters (29 classes), uppercase letters (29 classes), and digits (29 classes) with a total of 68 classes, written by a total of 20 000 unique participants of varying genders, hobbies, ages, and education levels by using the Turkish alphabet consisting of Latin letters. The dataset is also the first publicly available dataset of Turkish handwritten character samples with this scale. It contains 1 360 000 handwritten characters, 580 000 lowercase letters, 580 000 uppercase letters, and 200 000 digits. It is the first processed and labeled Turkish handwritten dataset that collected with four different features (gender, age, education, and hobby), and it varies for genders (male, female), age groups (5 to 11, 12 to 19, 20 to 30, and 31 to 65 age), an education level (elementary school, middle school, high school, college+), and hobbies (books, TV, internet, games, sports, music, painting, travel). The dataset we offer not only contributes to researchers working in computer science but also in different scientific fields. It is the largest handwritten dataset collected from a considerable number of participants, and known handwritten classification algorithms were applied to the lowercase/uppercase letters and digits, and their performances were examined. This study investigates the relationship between handwriting and knowledge of gender, education level, hobby, and age group. When the results of the experiments conducted on our dataset were examined, the performance rate ranked, namely gender, education level, age group, and hobby status. From this point of view, it has been observed that the gender of a person is more reflected in handwriting. The classification performance of handwritten digits in the dataset we have presented is compared with the benchmark dataset MNIST, and their results are discussed.

Benzer Tezler

  1. Los Personajes y los temas en las novelas de unamuno

    Başlık çevirisi yok

    HALE GÖKNAR

    Doktora

    İspanyolca

    İspanyolca

    1989

    DilbilimAnkara Üniversitesi

    İspanyol Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. MUZAFFER ARIKAN

  2. Derin öğrenme kullanılarak FPGA'lar ile gerçek zamanlı nesne algılama ve tanıma

    Real-time object detection and recognition on FPGAS's by using deep learning

    VEYSEL YUSUF ÇAMBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mekatronik MühendisliğiFırat Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYŞEGÜL UÇAR

  3. Presentation attack detection with shuffled patch-wise binary supervision

    Karıştırılmış yama tabanlı ikili gözetim ile sunum saldırı tespiti

    ALPEREN KANTARCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  4. Handwritten digit string segmentation and recognition using deep learning

    Derin öğrenme yöntemi kullanarak el yazısı rakam dizilerini bölütleme ve tanıma

    ORÇUN ELİTEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. UĞUR HALICI

  5. Emotion recognition using deep learning focusing on the hand and facial expressions

    El ve yüz ifadelerine odaklanan derin oğrenmeyi kullanarak duygu tanıma

    HASANAIN JAWAD RADEEF

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YILMAZ AR