Attention modeling with temporal shift in sign language recognition
İşaret dili tanımada zamansal kayma ile dikkat modellemesi
- Tez No: 761184
- Danışmanlar: PROF. DR. LALE AKARUN ERSOY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
İşaret dilleri, sağır bireylerin esas iletişim dilidir. Bu diller el şekilleri, üst vücut hareketleri ve yüz ifadeleri gibi birden fazla kip kullanarak iletişim kurulmasını sağlayan görsel dillerdir. İşaret dili tanıma modelleri, sağır ve duyma engeli bulunmayan insanlar arasında iletişimi kolaylaştırma potansiyeline sahiptir. Derin öğrenme alanındaki ilerlemeler ve erişime açık veri kümelerinin sayısının artması daha fazla araştırmacıyı işaret dili tanıma alanına yönlendirmiştir. Derin öğrenme alanındaki ilerlemeler ile işaret dili tanıma çalışmalarında kullanılan manuel öznitelik çözümlerinin yerini 2 boyutlu Evrişimsel Sinir Ağları (2B ESA) almaya başlamıştır. 2B ESA'nın zamansal modellemedeki yetersizliği ve 3B ESA'nın uzam-zamansal modelleme kabiliyeti 3B ESA'yı çok kullanılan bir çözüm haline getirmiştir. 3B ESA'ların başarılı sonuçlarına rağmen hesaplama maliyetinin ve hafıza ihtiyacının yüksek olması alternatif mimariler aranmasına sebep olmuştur. Bu tezde 2B ESA tabanlı zamansal kayma ile dikkat modellemesi yapan bir işaret dili tanıma modeli önerdik. 2B ESA kullanılması, karşılığı olan 3B ESA'ya göre parametre sayısını ve gerekli hafıza boyutunu azaltmıştır. Diğer veri kümeleri ile uygulanabilirliğini artırmak ve eğitim sürecini kolaylaştırmak için işaretçinin belirli vücut bölümlerine odaklanan görüntü kesimleri yerine tam çerçeve RGB görüntüler kullanılmıştır. İşaret dilinde iletişim birden çok görsel kipin aynı veya farklı zamanlarda kullanılması ile sağlandığı için model bu kiplerin birbirleri ile nasıl etkileşime girdiğini öğrenmelidir. Zamansal kayma modülleri 2B ESA tabanlı modele zamansal modelleme kabiliyeti verirken, dikkat modülleri ise videolarda neye, nereye ve ne zamana odaklanacağını öğrenmektedir. Modelimizi, Türkçe izole işaret dili veri kümesi olan BosphorusSign22k ile test ettik. Önerilen model %92.97 sınıflandırma başarımı elde etmiştir. Çalışmamız, izole işaret dili tanımada 2B ESA tabanlı zamansal kayma ile dikkat modellemesi yaparak rekabetçi sonuçlar alınabileceğini göstermiştir.
Özet (Çeviri)
Sign languages (SLs) are the main communication language of deaf people. They are visual languages that establish communication through multiple cues including hand gestures, upper-body movements and facial expressions. Sign language recognition (SLR) models have the potential to ease communication between hearing and deaf people. Advancements in deep learning and the increased availability of public datasets have led more researchers to study SLR. These advancements shifted solution methods for SLR from hand-crafted features to 2 Dimensional Convolutional Neural Network (2D CNN) models. Inadequacy of 2D CNNs on temporal modeling and 3D CNNs' ability of spatio-temporal modeling made 3D CNNs a popular choice. Despite its successful results, high computational costs and memory requirements of 3D CNNs created a need for alternative architectures. In this thesis, we propose an SLR model that uses 2D CNN as backbone and attention modeling with temporal shift. Usage of 2D CNN decreases the number of parameters and required memory size compared to its 3D CNN counterpart. In order to increase adaptability to other datasets and simplify the training process our model uses full frame RGB images instead of cropped images that focus on specific body parts of signers. Since communication in SL is established by using multiple visual cues at the same time or at different moments, the model must learn how these cues are collaborating with each other. While temporal shift modules give our 2D CNN backbone model the ability of temporal modeling, attention modules learn to focus on what, where and when in videos. We tested our model with BosphorusSign22k dataset which is a Turkish isolated SLR dataset. The proposed model achieves 92.97% classification accuracy. Our study shows that attention modeling with temporal shift on top of 2D CNN backbone gives competitive results in isolated SLR.
Benzer Tezler
- Exploring deep spatio-temporal fusion architectures towards late temporal modeling of human action recognition
İnsan aktivitelerini tanıma için derin uzam-zamansal füzyon mimarilerin geç zamansal modellemeye yönelik incelenmesi
MUHAMMET ESAT KALFAOĞLU
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH AYDIN ALATAN
DOÇ. DR. SİNAN KALKAN
- Investigations into the evolution of heated liquid films
Isıtılan sıvı filmlerin evrimine ilişkin araştırmalar
OMAIR A. A. MOHAMED
Doktora
İngilizce
2024
Makine Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
Assoc. Prof. LUCA BİANCOFİORE
- Modelling, simulation, and inferring regulatory networks
Başlık çevirisi yok
MAKSAT ASHYRALYYEV
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversiteit van AmsterdamMatematik Bilgisayar Ana Bilim Dalı
PROF. DR. D. C. VAN DEN BOOM
- Vegetation phenology and its interactions with climate change – a study on Turkey and its region
Türkiye ve bölgesinde iklim değişikliği ve vejetasyon fenolojisi ilişkisi: Uydu verilerine dayalı bir yaklaşım
TUĞÇE ŞENEL
Doktora
İngilizce
2023
Botanikİstanbul Teknik Üniversitesiİklim ve Deniz Bilimleri Ana Bilim Dalı
PROF. DR. HASAN NÜZHET DALFES
- Akıllı şebekelerde makine öğrenmesi teknikleriyle kısa dönem rüzgâr hızı tahmini: Kocaeli-Türkiye örneği
Short–term wind speed forecasting in smart grids with machine learning techniques: A case study in Kocaeli-Türkiye
MAYSA GAIDOUM AHMED GAIDOUM
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. YILMAZ UYAROĞLU