Score level multi cue fusion for sign language recognition
İşaret dili tanıma için sonuç seviyesinde çoklu ipucu kaynaşımı
- Tez No: 652357
- Danışmanlar: PROF. DR. LALE AKARUN ERSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Bu tezde işaret dili tanıma problemi için kullanılan Üç boyutlu Evrişimsel Sinir Ağları (3B ESA) yapılarının sınıflandırma performansını artıran Skor Seviyesinde Çoklu İpucu Kaynaşımı yöntemi önerilmiştir. İşaret Dili yazılı dil içeriğinden farklı olarak çoğunlukla el hareketleri, vücut pozu ve yüz ifadelerine odaklandığı için bu bölgelere ait ipuçları önem teşkil etmektedir. İşaret Dili Tanıma için son dönemde derin yapay sinir ağlarının gelişmesi sebebiyle bir çok yöntem önerildiği görülmektedir. Önerilmiş olan yöntemler farklı 3B ESA yapılarını kullanarak işaret dili sınıflandırması yapmaktadır ve sırasıyla Standart 3B ESA, Karma ESA ve (2+1)B ESA methodları olarak sınıflandırılmıştır. Standart 3B ESA yapısı sadece 3B filtresini kullanmakta, Karma ESA yapısı 2B ve 3B filtrelerini birlikte kullanmakta ve (2+1)B ESA yapısı ESA atlama mimarisinde darboğaz oluşturan (2+1)B bloğunu kullanmaktadır. İşaret dili tanıma problemi için bahsedilen yapıların kullanıldığı çalışmalar bulunmaktadır, ancak bu çalışmalarda işaret dilinin farklı vücut, el ve yüz gibi farklı ipucu bölgelerinin değerlendirilmediği veya gereksiz büyüklükte mimariler kullanıldığı için zayıf sonuçlar elde edildiği görülmektedir. Bu eksikliklerin çözülmesi kolayca uygulanabilen ve yalnızca Karma ESA yapısı ile tüm işaret dili ipuçlarını işleyebilen bir sistem tasarlanmıştır. Bu sistem ile el, vücut ve yüz ipucu modelleri karma ESA yapısı ile eğitilmiştir ve sonuçlar ağırlıklı skor kaynaşımı ile birleştirilmiştir. Bosphorus Sign 22k Türk İşaret Dili veri kümesi üzerinde deneyler yapılmıştır. Tasarladığımız sistem alternatiflerine göre daha hızlı çalışmakta ve 744 sınıf tahmini probleminde $\%94$ sınıflandırma başarısı ile diğerlerinden daha başarılı sonuç elde etmektedir. Gelecek çalışmalarda önerdiğimiz çoklu ipucu yapısı kullanılarak, işaret dili çevirisi gibi diğer işaret dili temelli problemlerdeki başarımın da artırılabileceği öngörülmektedir.
Özet (Çeviri)
In this thesis, we propose a Score-Level Multi Cue Fusion approach that improves the sign language recognition performance of the three dimensional convolutional neural networks. Sign Language is the communication language of the Deaf and Hearing-impaired individuals and performed using hand movements, facial gestures, and body alignment. Sign Language Recognition is the task that aims to understand sign language and gaining increasing popularity with the task becoming feasible due to the efficiency of the neural network. Previous work uses 3D CNN network variants to inspect SL properties in different settings. The vanilla 3D variant uses 3D kernels with high processing cost, the mixed convolution variant applies both 3D and 2D kernels respectively, and R(2+1)D variants exploit bottleneck connections to exploit the bottleneck dimension. Various studies use these networks to generate an end to end framework for tasks such as sign classification and translation. To achieve better performance, 3D CNN methods use the complicated neural network architectures that have a branch for every cue system. We evaluate the 3D network performances and propose a more straightforward approach which only adopts a single neural network that can process multiple cues at test time. We exploit the hand, body, and face cues by training single individual networks and fuse results by using a weighted score fusion. We test our method on the recently published Turkish Isolated SLR dataset. Despite the simple architecture, our method achieves \%94 percent classification rate on 744 different sign glosses. We hope that the multi cue approach can help with the other SLR tasks such as translation, which is stated as future work.
Benzer Tezler
- Özel eğitim mekanlarının Down sendromlu bireyler için yapı biyolojisi kapsamında değerlendirilmesi
Evaluation of special educational places for individuals with Down syndrome within the scope of building biology
SEZER VOLKAN ÖZTÜRK
Yüksek Lisans
Türkçe
2021
MimarlıkAkdeniz Üniversitesiİç Mimarlık Ana Bilim Dalı
DOÇ. DR. AYŞEGÜL DURUKAN
- Bayesian optimization strategies for human-in-the-loop systems: Theory and applications in physical human-robot-interaction
İnsanın optimizasyon döngüsüde olduğu sistemler için bayes optimizasyon stratejileri: Teori ve fiziksel insan-robot etkileşimi uygulamaları
HARUN TOLASA
Yüksek Lisans
İngilizce
2024
Mekatronik MühendisliğiSabancı ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. VOLKAN PATOĞLU
- Multi-modal deception detection from videos
Videolardan çoklu-modalite ile aldatmaca kestirimi
MEHMET UMUT ŞEN
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiPROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Çoklu-biyometrik yöntemlerle kimlik doğrulama
Verification by using multi-biometric methods
KADİR SERCAN BAYRAM
Doktora
Türkçe
2018
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BÜLENT BOLAT
- Evrişimsel sinir ağları kullanılarak EKG ve yüz tabanlı biyometrik tanıma
ECG and face based biometric recognition using convolutional neural networks
AYÇA HANİLÇİ
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik MühendisliğiBursa Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN GÜRKAN