Geri Dön

Score level multi cue fusion for sign language recognition

İşaret dili tanıma için sonuç seviyesinde çoklu ipucu kaynaşımı

  1. Tez No: 652357
  2. Yazar: ÇAĞRI GÖKÇE
  3. Danışmanlar: PROF. DR. LALE AKARUN ERSOY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Bu tezde işaret dili tanıma problemi için kullanılan Üç boyutlu Evrişimsel Sinir Ağları (3B ESA) yapılarının sınıflandırma performansını artıran Skor Seviyesinde Çoklu İpucu Kaynaşımı yöntemi önerilmiştir. İşaret Dili yazılı dil içeriğinden farklı olarak çoğunlukla el hareketleri, vücut pozu ve yüz ifadelerine odaklandığı için bu bölgelere ait ipuçları önem teşkil etmektedir. İşaret Dili Tanıma için son dönemde derin yapay sinir ağlarının gelişmesi sebebiyle bir çok yöntem önerildiği görülmektedir. Önerilmiş olan yöntemler farklı 3B ESA yapılarını kullanarak işaret dili sınıflandırması yapmaktadır ve sırasıyla Standart 3B ESA, Karma ESA ve (2+1)B ESA methodları olarak sınıflandırılmıştır. Standart 3B ESA yapısı sadece 3B filtresini kullanmakta, Karma ESA yapısı 2B ve 3B filtrelerini birlikte kullanmakta ve (2+1)B ESA yapısı ESA atlama mimarisinde darboğaz oluşturan (2+1)B bloğunu kullanmaktadır. İşaret dili tanıma problemi için bahsedilen yapıların kullanıldığı çalışmalar bulunmaktadır, ancak bu çalışmalarda işaret dilinin farklı vücut, el ve yüz gibi farklı ipucu bölgelerinin değerlendirilmediği veya gereksiz büyüklükte mimariler kullanıldığı için zayıf sonuçlar elde edildiği görülmektedir. Bu eksikliklerin çözülmesi kolayca uygulanabilen ve yalnızca Karma ESA yapısı ile tüm işaret dili ipuçlarını işleyebilen bir sistem tasarlanmıştır. Bu sistem ile el, vücut ve yüz ipucu modelleri karma ESA yapısı ile eğitilmiştir ve sonuçlar ağırlıklı skor kaynaşımı ile birleştirilmiştir. Bosphorus Sign 22k Türk İşaret Dili veri kümesi üzerinde deneyler yapılmıştır. Tasarladığımız sistem alternatiflerine göre daha hızlı çalışmakta ve 744 sınıf tahmini probleminde $\%94$ sınıflandırma başarısı ile diğerlerinden daha başarılı sonuç elde etmektedir. Gelecek çalışmalarda önerdiğimiz çoklu ipucu yapısı kullanılarak, işaret dili çevirisi gibi diğer işaret dili temelli problemlerdeki başarımın da artırılabileceği öngörülmektedir.

Özet (Çeviri)

In this thesis, we propose a Score-Level Multi Cue Fusion approach that improves the sign language recognition performance of the three dimensional convolutional neural networks. Sign Language is the communication language of the Deaf and Hearing-impaired individuals and performed using hand movements, facial gestures, and body alignment. Sign Language Recognition is the task that aims to understand sign language and gaining increasing popularity with the task becoming feasible due to the efficiency of the neural network. Previous work uses 3D CNN network variants to inspect SL properties in different settings. The vanilla 3D variant uses 3D kernels with high processing cost, the mixed convolution variant applies both 3D and 2D kernels respectively, and R(2+1)D variants exploit bottleneck connections to exploit the bottleneck dimension. Various studies use these networks to generate an end to end framework for tasks such as sign classification and translation. To achieve better performance, 3D CNN methods use the complicated neural network architectures that have a branch for every cue system. We evaluate the 3D network performances and propose a more straightforward approach which only adopts a single neural network that can process multiple cues at test time. We exploit the hand, body, and face cues by training single individual networks and fuse results by using a weighted score fusion. We test our method on the recently published Turkish Isolated SLR dataset. Despite the simple architecture, our method achieves \%94 percent classification rate on 744 different sign glosses. We hope that the multi cue approach can help with the other SLR tasks such as translation, which is stated as future work.

Benzer Tezler

  1. Özel eğitim mekanlarının Down sendromlu bireyler için yapı biyolojisi kapsamında değerlendirilmesi

    Evaluation of special educational places for individuals with Down syndrome within the scope of building biology

    SEZER VOLKAN ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    MimarlıkAkdeniz Üniversitesi

    İç Mimarlık Ana Bilim Dalı

    DOÇ. DR. AYŞEGÜL DURUKAN

  2. Bayesian optimization strategies for human-in-the-loop systems: Theory and applications in physical human-robot-interaction

    İnsanın optimizasyon döngüsüde olduğu sistemler için bayes optimizasyon stratejileri: Teori ve fiziksel insan-robot etkileşimi uygulamaları

    HARUN TOLASA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mekatronik MühendisliğiSabancı Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. VOLKAN PATOĞLU

  3. Multi-modal deception detection from videos

    Videolardan çoklu-modalite ile aldatmaca kestirimi

    MEHMET UMUT ŞEN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

  4. Çoklu-biyometrik yöntemlerle kimlik doğrulama

    Verification by using multi-biometric methods

    KADİR SERCAN BAYRAM

    Doktora

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BÜLENT BOLAT

  5. Evrişimsel sinir ağları kullanılarak EKG ve yüz tabanlı biyometrik tanıma

    ECG and face based biometric recognition using convolutional neural networks

    AYÇA HANİLÇİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiBursa Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAKAN GÜRKAN