Geri Dön

Attention modeling with temporal shift in sign language recognition

İşaret dili tanımada zamansal kayma ile dikkat modellemesi

  1. Tez No: 761184
  2. Yazar: AHMET FARUK ÇELİMLİ
  3. Danışmanlar: PROF. DR. LALE AKARUN ERSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

İşaret dilleri, sağır bireylerin esas iletişim dilidir. Bu diller el şekilleri, üst vücut hareketleri ve yüz ifadeleri gibi birden fazla kip kullanarak iletişim kurulmasını sağlayan görsel dillerdir. İşaret dili tanıma modelleri, sağır ve duyma engeli bulunmayan insanlar arasında iletişimi kolaylaştırma potansiyeline sahiptir. Derin öğrenme alanındaki ilerlemeler ve erişime açık veri kümelerinin sayısının artması daha fazla araştırmacıyı işaret dili tanıma alanına yönlendirmiştir. Derin öğrenme alanındaki ilerlemeler ile işaret dili tanıma çalışmalarında kullanılan manuel öznitelik çözümlerinin yerini 2 boyutlu Evrişimsel Sinir Ağları (2B ESA) almaya başlamıştır. 2B ESA'nın zamansal modellemedeki yetersizliği ve 3B ESA'nın uzam-zamansal modelleme kabiliyeti 3B ESA'yı çok kullanılan bir çözüm haline getirmiştir. 3B ESA'ların başarılı sonuçlarına rağmen hesaplama maliyetinin ve hafıza ihtiyacının yüksek olması alternatif mimariler aranmasına sebep olmuştur. Bu tezde 2B ESA tabanlı zamansal kayma ile dikkat modellemesi yapan bir işaret dili tanıma modeli önerdik. 2B ESA kullanılması, karşılığı olan 3B ESA'ya göre parametre sayısını ve gerekli hafıza boyutunu azaltmıştır. Diğer veri kümeleri ile uygulanabilirliğini artırmak ve eğitim sürecini kolaylaştırmak için işaretçinin belirli vücut bölümlerine odaklanan görüntü kesimleri yerine tam çerçeve RGB görüntüler kullanılmıştır. İşaret dilinde iletişim birden çok görsel kipin aynı veya farklı zamanlarda kullanılması ile sağlandığı için model bu kiplerin birbirleri ile nasıl etkileşime girdiğini öğrenmelidir. Zamansal kayma modülleri 2B ESA tabanlı modele zamansal modelleme kabiliyeti verirken, dikkat modülleri ise videolarda neye, nereye ve ne zamana odaklanacağını öğrenmektedir. Modelimizi, Türkçe izole işaret dili veri kümesi olan BosphorusSign22k ile test ettik. Önerilen model %92.97 sınıflandırma başarımı elde etmiştir. Çalışmamız, izole işaret dili tanımada 2B ESA tabanlı zamansal kayma ile dikkat modellemesi yaparak rekabetçi sonuçlar alınabileceğini göstermiştir.

Özet (Çeviri)

Sign languages (SLs) are the main communication language of deaf people. They are visual languages that establish communication through multiple cues including hand gestures, upper-body movements and facial expressions. Sign language recognition (SLR) models have the potential to ease communication between hearing and deaf people. Advancements in deep learning and the increased availability of public datasets have led more researchers to study SLR. These advancements shifted solution methods for SLR from hand-crafted features to 2 Dimensional Convolutional Neural Network (2D CNN) models. Inadequacy of 2D CNNs on temporal modeling and 3D CNNs' ability of spatio-temporal modeling made 3D CNNs a popular choice. Despite its successful results, high computational costs and memory requirements of 3D CNNs created a need for alternative architectures. In this thesis, we propose an SLR model that uses 2D CNN as backbone and attention modeling with temporal shift. Usage of 2D CNN decreases the number of parameters and required memory size compared to its 3D CNN counterpart. In order to increase adaptability to other datasets and simplify the training process our model uses full frame RGB images instead of cropped images that focus on specific body parts of signers. Since communication in SL is established by using multiple visual cues at the same time or at different moments, the model must learn how these cues are collaborating with each other. While temporal shift modules give our 2D CNN backbone model the ability of temporal modeling, attention modules learn to focus on what, where and when in videos. We tested our model with BosphorusSign22k dataset which is a Turkish isolated SLR dataset. The proposed model achieves 92.97% classification accuracy. Our study shows that attention modeling with temporal shift on top of 2D CNN backbone gives competitive results in isolated SLR.

Benzer Tezler

  1. Exploring deep spatio-temporal fusion architectures towards late temporal modeling of human action recognition

    İnsan aktivitelerini tanıma için derin uzam-zamansal füzyon mimarilerin geç zamansal modellemeye yönelik incelenmesi

    MUHAMMET ESAT KALFAOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH AYDIN ALATAN

    DOÇ. DR. SİNAN KALKAN

  2. Investigations into the evolution of heated liquid films

    Isıtılan sıvı filmlerin evrimine ilişkin araştırmalar

    OMAIR A. A. MOHAMED

    Doktora

    İngilizce

    İngilizce

    2024

    Makine Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    Assoc. Prof. LUCA BİANCOFİORE

  3. Modelling, simulation, and inferring regulatory networks

    Başlık çevirisi yok

    MAKSAT ASHYRALYYEV

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversiteit van Amsterdam

    Matematik Bilgisayar Ana Bilim Dalı

    PROF. DR. D. C. VAN DEN BOOM

  4. Vegetation phenology and its interactions with climate change – a study on Turkey and its region

    Türkiye ve bölgesinde iklim değişikliği ve vejetasyon fenolojisi ilişkisi: Uydu verilerine dayalı bir yaklaşım

    TUĞÇE ŞENEL

    Doktora

    İngilizce

    İngilizce

    2023

    Botanikİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    PROF. DR. HASAN NÜZHET DALFES

  5. Akıllı şebekelerde makine öğrenmesi teknikleriyle kısa dönem rüzgâr hızı tahmini: Kocaeli-Türkiye örneği

    Short–term wind speed forecasting in smart grids with machine learning techniques: A case study in Kocaeli-Türkiye

    MAYSA GAIDOUM AHMED GAIDOUM

    Doktora

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiSakarya Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. YILMAZ UYAROĞLU