Yinelemeli sinir ağları ile işaret dili tanıma
Sign language recognition with recurrent neural networks
- Tez No: 894524
- Danışmanlar: PROF. DR. TAMER ÖLMEZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 89
Özet
İşaret dili sağır ve konuşma zorluğu olan bireylerin iletişim için kullandıkları dildir. Günümüzde işaret kullanımı fazla olmasına rağmen işaret dili öğrenmenin zorluğundan dolayı işaret dili bilen birey sayısı oldukça azdır. İşaret dili tanıma işaret dili öğrenme zorunluluğunu ortadan kaldırarak iletişimin arttırılmasını amaçlar. Ancak işaret dili tanıma zorlu bir problemdir. Çünkü işaretler el ve vücut hareketleri ve hatta yüz ifadeleriyle ifade edilir. Aynı zamanda işaretlerin birbirine benzemesi ve yapan kişiye göre farklılık göstermesi de işaret dili tanımanın zorlukları arasında sayılabilir. Son yıllarda özellikle derin öğrenme alanındaki çalışmalar artmıştır. GPUların da gelişmesiyle birlikte hesaplama gücü artmış bu da derin öğrenme alanındaki çalışmaların hızlanmasına yardımcı olmuştur. Günlük hayattaki birçok problemin çözümünde derin öğrenme kullanılmaktadır. İşaret dili tanıma problemini çözmek için de derin öğrenme algoritmaları kullanılmaktadır. İşaret dilini tanıma diğer insan ve bilgisayar etkileşimi için önemli olan bir diğer konu olan eylem tanımadan daha karmaşık bir konudur. Çünkü işaret dili anlatımının düzgün yapılabilmesi için el hareketleri ve mimiklerin daha açık bir şekilde ifade edilmesi gerekir. Literatürdeki bir çok çalışma işareti yapan kişiye ve işaretin yapıldığı ortama bağımlı olarak yapılmaktadır. İskelet anahtar noktalarının kullanımı bu bağımlılıkları tamamen ortadan kaldırmasada işaret dili tanımayı bu şartlara daha az bağımlı kılar. Bu çalışmada RGB videolardan elde edilen iskelet anahtar noktaları kullanılarak yinelemeli sinir ağları olan uzun kısa süreli bellek, kapılı tekrarlayan hücre modelleri kullanılarak işaret dili tanımlama amaçlanmıştır. İskelet anahtar noktaları sadece el ve kol üzerinden alınmış yüz ve vücut iskelet anahtar noktaları bu çalışmanın kapsamı dışında tutulmuştur. Her iki modelde zamana bağlı değişkenleri daha iyi modellemek adına iki yönlü olarak oluşturulmuştur. Aynı zamanda ezberleme ve gradyen kaybolması problemini çözmek adına düğüm seyreltme , katman normalizasyonu yöntemleri kullanılmıştır. Modellerin işaret dili tanımadaki performansları , GPU kullanım verileri ve hesaplama verimliliği karşılaştırılmıştır. Modelin performansı Türkçe işaret dili dataseti olan AUTSL üzerinde 50 işaret üzerinde denenmiş ve sonuçları paylaşılmıştır. Yapılan eğitimler sonucu Uzun kısa süreli bellek modelinin daha kısa sürede daha iyi doğruluğa ulaştığı görülmüştür. Ancak GPU kullanım değerlerine bakıldığına Kapılı Tekrarlayan Hücrenin daha düşük maliyetlerle çalıştığı gözlemlenmiştir.
Özet (Çeviri)
Sign language is used by deaf and speech impaired people for communication. However most of the people doesnt know sign language and it takes time to master the sign language. Sign language recognition aims to remove this communication barrier by recognize signs from videos or frames. However sign language recognition is complex problem. Because the signs can consist of hand gestures, facial expressions and body posture. Also there is a similarity between most of the signs thus makes it more complex to recognize each of the signs. In recent years the improvements in the computational power allow research in deep learning to make a significant progress. Many problems in real life can bel solved by deep learning. Some the application areas of the deep learning are military , medicine, engineering etc. Computer vision area also achieve significant progress with the advancements in deep learning area. One of the problem that computer vision is trying to solve is sign language recognition. In the second chapter of this study, the types of sign language and the methods for obtaining sign language are discussed. Sign language consist of static and dynamic signs. With the emerge of convolutional neural networks static signs can be recognized successfuly. However recognition of the dynamic signs is a lot more complex problem. Recently skeleton based models are used for dynamic sign recognition due to the independence between the subject and background. Sign language recognition systems can be categorized into three main branches: Sensor based, Vision based and Depth based approaches. Camera and depth based approaches are more preferred. The depth based methods enables to obtain more information but depth based cameras are expensive. In this study only camera based approach is used to increase the use of the proposed system in real life. In the third chapter of this study, skeleton keypoint based action recognition is disccused. Human body pose estimation is another complex task that researcher are trying to solve. Prerained HRNet whole-body pose estimator used to estimate 133-point whole-body keypoints from the RGB videos. However after preprocessing only 44 skeleton keypoints are used as input in the model. This is done due to decrease computational cost of the model. After skeleton keypoints are obtained and preprocessed this keypoints are used as input in the Long Short Term Memory and Gated Recurrent Units to perform sign language classification. The training of the HRNet is out of scope for this study. In the fourth chapter of this study, technical details of how deep learning algorithms works are discussed. Deep learning is a subset of machine learning, which is essentially a neural network with three or more layers. These neural networks attempt to simulate the behavior of the human brain. Deep learning algoritms learns from the data. The work principle of deep learning models forward pass , backpropagation , also the types of hyperparameters and optimization of the deep learning models are explained. In the fifth chapter of this study, recurrent neural networks are discussed. Recurrent neural networks are used to model time series and sequence based data. However recurrent neural networks suffer greatly from vanishing and exploding gradient problem. To solve this problem long short term memory and gated recurrent unit models are developed. These two models solve the exploding, vanishing gradient problem by adding gate mechanism to the their architecture. Long short term memory unit is consist of a cell, an input gate, an output gate and a forget gate. Gated recurrent unit uses update, reset gate and has has fewer parameters than Long short term memory model. Both of these models use gates to regulate information flow. The proposed architecture consist of consecutive Long short term memory and gated recurrent unit layers with dropout to prevent overfitting.Both model is build bidirectional to obtain information in two ways.This increases the model performance. Layer Normalization is also used after layers to keep data normalized. After that the output of these layers are fed into 2 fully connected layers. Rectified Linear Unit (ReLU) is used as activation function.Cross Entropy Loss function utilized to reduce loss adam optimizer is used. Both of the network is built on same structure. The only difference is LSTM and GRU layers. The proposed architecture especially build as smaller network to reduce computational cost. Only 3 hidden layers are used in both model. In the sixth and seventh chapter, the dataset and evaluation metrics are discussed. Turkish sign language dataset AUTSL used is to evaluate the model performances. AUTSL consist of 226 signs of the Turkish Sign languages. However in this study only 50 signs are used for model evaluation to decrease computational cost due to lack of computational power. The evaluation metrics are GPU, memory usage and accuracy of the the models. The proposed models are trained with Pytorch deep learning framework with Cuda. Nvidia 1660 Ti used as GPU source. In the seventh chapter , the results of this study and future works are discussed. Long short term memory models outperforms the gated recurrent unit model in terms of accuracy and training time. The long short term memory models achieve an accuracy of 79,66% in 400 minutes of training and gated recurrent unit model achieve an accuracy of 78,66 in 12,5 hours of training for recognition of dynamic Turkish sign language signs. However gated recurrent unit model is more efficient in terms of GPU and memory usage. The use of long short term memory is more plausible in sign language recognition. The proposed models performance then compared with other state of the art dynamic sign language recognition methods. The proposed models outperforms 3 dimensinonal convolutional neural networks, convolutional neural networks combined with the long short term memory networks, convolutional neural networks combined with the long short term memory networks, attention and feature pooling module models. However the proposed models cannot outperforms the multi model approaches. Multimodal deep learning is a relatively new field that is concerned with algorithms that learn from data of multiple modalities. Multi modal approaches achieves higher performance but also requires much more computation in both training and evaluation. Due to high computational cost multi modal approaches cannot achieves real time recognition. However with the advencement in the GPUs multi modal approaches can be trained faster and also can be used in real time applications. Both of the models are using the same sequence length to observe the performance of the models. The models can be trained under different sequence length to observe the learning capability. The sequence length parameter can be considered as complexity of the signs.
Benzer Tezler
- Artificial intelligence based detection schemes for secure wireless communication
Güvenli telsiz iletişimin sağlanmasına yönelik yapay zeka tabanlı sınıflandırma metotları
SELEN GEÇGEL
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNEŞ ZEYNEP KARABULUT KURT
- Derin öğrenme algoritmaları ile trafik işaret ve levhalarının tanımlanması
Traffic sign recognition with deep learning algorithms
AHMET YAVUZ
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik MühendisliğiPamukkale ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR İPLİKÇİ
- Novel fractional order calculus-based audio processing methods and their applications on neural networks for classification and synthesis problems
Kesirli mertebeden kalkülüs temelli yeni ses işleme yöntemleri ve bunların sinir ağları üzerinde sınıflandırma ve sentez problemlerine uygulanması
BİLGİ GÖRKEM YAZGAÇ
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜRVET KIRCI
- Sayısal iletişim kanallarının yapay sinir ağları kullanarak dengelenmesi
Equalization of digital communication channels by using artificial neural networks
MUSTAFA ÖZDİN
Yüksek Lisans
Türkçe
2000
Elektrik ve Elektronik MühendisliğiErciyes ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NECMİ TAŞPINAR
- Modeling and implementation of biological neural systems
Biyolojik sinir sistemlerinin modellenmesi ve gerçeklenmesi
ÖZGÜR ERDENER
Doktora
İngilizce
2016
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. İSMAİL SERDAR ÖZOĞUZ