Geri Dön

Görsel dikkat modeli ve derin öğrenme yöntemleri kullanılarak geniş dağarcıklı ayrık işaret dili tanıma sisteminin modellenmesi

Modeling a large vocabulary isolated sign language recognition system using visual attention model and deep learning methods

  1. Tez No: 695812
  2. Yazar: ÖZGE MERCANOĞLU SİNCAN
  3. Danışmanlar: DOÇ. DR. HACER YALIM KELEŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 117

Özet

Otomatik işaret dili tanıma problemi bilgisayarla görü alanında aktif bir çalışma alanı olup videolardan işaretlerin otomatik tanınmasına odaklanan karmaşık ve zorlu bir problemdir. Son yıllardaki donanımsal ve yazılımsal alandaki gelişmeler gerçek zamanlı otomatik işaret dili tanıma sistemlerinin geliştirebilmesi için zemin hazırlamaktadır. Ancak, günlük hayatla uyumlu sistemlerin geliştirilebilmesi için daha gerçekçi ortamlarda hazırlanmış işaret dili veri setlerine ihtiyaç duyulmaktadır. Tez kapsamında, kişiden bağımsız tanımaya odaklanan, geniş dağarcıklı ve ayrık Ankara Üniversitesi Türkçe İşaret Dili (AUTSL) veri seti oluşturulmuş ve erişime açık hale getirilmiştir. Literatürde diğer dillere ait büyük ölçekli ayrık işaret dili veri setleri genellikle laboratuvar ortamında ve düz bir arka plan önünde kaydedilmişken, AUTSL veri seti hem statik hem dinamik olmak üzere geniş bir arka plan çeşitliliğine sahiptir. Ayrık işaret dili tanıma problemi için ilk olarak, dikkat mekanizmalı 2D-CNN ve LSTM tabanlı çeşitli mimariler önerilmiştir. İkinci olarak, her bir video için hareket geçmişlerinin özetlendiği ve yalnızca tek bir imgeye karşılık gelen renkli RGB-Hareket Geçmişi Görüntüleri (RGB-MHI) oluşturularak RGB-MHI modeli geliştirilmiştir. Son olarak ise RGB-MHI modeli ve 3D-CNN'ler ile iki özgün mimari önerilmiştir. Bu mimarilerin ilkinde, RGB-MHI modeli kullanılarak açıkça bir bölütlemeye ihtiyaç duymayan, hareket geçmişi tabanlı, uzamsal bir dikkat mekanizması oluşturulmuş ve 3D-CNN mimarisine entegre edilmiştir. İkincisinde, 3D-CNN ve RGB-MHI modellerinin ürettiği öznitelikler geç füzyon tekniği ile birleştirilmiştir. Yalnızca-RGB verilerini kullanarak önerilen bu mimariler, literatürde pek çok modaliteyi bir arada kullanan modeller ile karşılaştırıldığında rekabetçi sonuçlar elde etmektedir.

Özet (Çeviri)

Automatic Sign Language Recognition (SLR) problem is an active field of study in computer vision and is a complex and challenging problem that focuses on automatic recognition of signs from videos. Recent developments in hardware and software enable the possibility of developing real-time automatic SLR systems. However, in order to develop systems that are convenient to use in dailiy life activities, sign language datasets that are prepared in more realistic environments are needed. Within the scope of the thesis, a large-scale isolated Ankara University Turkish Sign Language (AUTSL) dataset, which focuses on user-independent recognition, has been created and made publicly available. In the literature, while large-scale isolated sign language datasets of other languages are usually recorded in laboratory environments and in front of a plain background, the AUTSL dataset has a wide variety of backgrounds, both static and dynamic. For the isolated SLR problem, firstly, various architectures based on 2D-CNN and LSTM with attention mechanisms have been proposed. Secondly, only one RGB-Motion History Image (RGB-MHI) was created, in which the motion histories were summarized for each video, and RGB-MHI model has been proposed. Finally, two novel approaches are proposed with RGB-MHI model and 3D-CNNs. In the first, a motion history-based spatial attention mechanism that does not need explicit segmentation has been proposed using the RGB-MHI model, and integrated into the 3D-CNN. Secondly, 3D-CNN and RGB-MHI features are combined with a late fusion technique. These architectures, which are proposed using RGB-only data, achieve competitive results with multi-modal models in the literature.

Benzer Tezler

  1. Uzaktan algılama ve derin öğrenme yöntemleri ile İstanbul'un yerel iklim alanları ve yer yüzeyi sıcaklığı değişimleri arasındaki ilişkinin incelenmesi

    Investigation of the relationship between local climate zones and land surface temperature changes in İstanbul using remote sensing and deep learning methods

    MELİKE NİCANCI SİNANOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. ŞİNASİ KAYA

  2. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Dizel makinanın makina öğrenmesi yöntemi kullanılarak modellenmesi ve karar-destek mekanizması oluşturulması

    Machine learning method based marine diesel engine modelling and decision-support system setting

    TOLGA ŞAHİN

    Doktora

    Türkçe

    Türkçe

    2022

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. CEVAT ERDEM İMRAK

  5. Image analysis based symbol recognition in colored maps

    Renkli haritalarda görüntü analizi tabanlı sembol tanıma

    FATMANUR TURHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN