Geri Dön

Hand gesture recognition for Turkish sign language using electromyography for human-robot interaction

İnsan-robot etkileşimi için elektromyografi kullanarak Türk işaret dili için el hareketi tanıma

  1. Tez No: 664620
  2. Yazar: MUSTAFA SEDDIQI
  3. Danışmanlar: DOÇ. DR. HATİCE KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

İnsanlar, çevreleriyle karmaşık bağlantıları olan sosyal olarak zeki varlıklardır. Çocuklar doğdukları andan itibaren sosyal becerileri aile ve diğer toplum üyeleriyle yaşadıkları deneyimlerden öğrenirler. Sosyal becerilerin, kişinin sosyal davranışı, kişisel davranışı ve bilişsel yeteneği ile pozitif bir ilişkisi vardır. Çocuk bu becerileri erken yaşta geliştiremezse, sosyal ilişkiler kurma ve bir dili (okuma, yazma ve dil bilgisi) öğrenmede sorun yaşar. İşitme ve konuşma, insanların çevreleriyle bağlantı kurmaları için birincil araçlardır. Sağır çocuklar ise işitme eksikliğinden dolayı çevrelerindeki insanlarla işiten çocuklarğibi bağlantı kuramazlar- bu iletişim eksikliği sosyal becerilerin engellenmesine ve bilişsel gelişimlerinin gecikmesine neden olur. Bu sorunun üstesinden gelemezlerse bu onlar için kalıcı bir eksiklik olarak sonuçlanabilir. Bu nedenle, işitme engelli bir çocuk ailesinden, okulundan ve toplumundan daha fazla desteğe ihtiyaç duyar. İnsan-Robot etkileşimi (HRI), işitme engelli çocukların dil öğrenmeleri ve sosyal becerileri öğrenmeleri için yardımcı bir araç olabilir. Bazı sağır çocuklar, insanların sosyal davranışlarını çok karmaşık bulabilirler ve bu yüzden HRI ile etkileşim düzeyi çocuğa göre ayarlanabilir. Bu çalışmanın temel motivasyonu, sağır çocuklarda sosyal becerilerin öğrenilmesini kolaylaştırmak için robotik bir platformda bir işaret tanıyıcı model geliştirmektir. Eşsiz dil özellikleri ve bazı benzersiz işaretleri nedeniyle işaret dilleri farklıdır; Bu çalışmada sistemimize Türkiye'nin çeşitli bölgelerinde uygulanan Türk İşaret Dili (TSL) için uygun olarak geliştiriyoruz. Bu sistimimizde TSL'nin statik işaretlerini tanımak için Elektromiyografi (EMG) ve eylemsizlik ölçüm birimleri (IMU'lar) sensörleri ile çalışan Myo armband'ı kullanıyoruz. Bu kol bandının kullanımı rahattır ve bir Bluetooth aracılığıyla kişisel bilgisayarlara kolayca bağlanabilir. EMG, iskelet kasının elektrik sinyalini değerlendiren bir tekniktir. Elektrik sinyali, kas kasıldığında üretilir. EMG için elektrik sinyali elektrotlar aracılığıyla kaydedilir. Elektrodiagnostik testlerde yaygın olarak kullanılan iğne benzeri ve genellikle rehabilitasyonda kullanılan yüzey benzeri farklı EMG elektrotları vardır. Kastan gelen EMG sinyali, cilt oluşumu, kan akış hızı, cilt sıcaklığı, doku yapısı ve ölçümğibi birçok faktör nedeniyle gürültülü hale gelir. IMU, bir navigasyon sistemidir. IMU'da İvmeölçerler, jiroskoplar ve manyetometreler gibi bir eylemsiz sensör koleksiyonu dahildir. Jiroskop çıktıları, tutum ölçümü için kullanılan açısal hızlardır, ivmeölçer çıktıları konum belirleme için ivmelerdir ve manyetometreler mutlak yönelim hesaplamasını çıkarır. Myo kol bandı aracılığıyla sabit TSL işaretleri için on sağlıklı kişiden (21-26 yaşlarında 5 kadın, ortalama: 23.8; 27-37 yaşlarında 5 erkek, ortalama: 29.6) EMG ve IMU verileri elde ettik. Bir kadın dışında tüm katılımcılar sağ elini kullanıyordu. Hareketler omuz, dirsek ve bilek eklemlerinde serbestlik derecesi 3 (DOF) fark etmeksizin gerçekleştirildi. Verileri, EMG ve IMU'lar için sırasıyla 40 ve 10'luk ölçümlerde pencere tekniğini (window technique) kullanarak örneklere ayırıyoruz. İşaret hareketleri yönelim ile jiroskop ve ivmeölçere göre daha fazla ilişkilidir; bu nedenle, IMU'larda jiroskop ve ivmeölçer değerlerinde daha iyi performansğösterebilen herhangi bir füzyon algoritması (fusion algorithm) kullanmadık. IMU değerlerinin önceden işlenmesi, sınıflandırmayı önemli ölçüde iyileştirmez. Bu nedenle, IMU değerlerini önceden işlemedik ve yönelim için kuaterniyon (quaternion) değerleri kullandık. İçsel gürültü ve hareket kusurlarından kaynaklanan geniş bir gürültü aralığı olan EMG sesleri, bir düşük geçiş (low pass) filtresi ile önemli ölçüde filtrelenebilir. Alçak geçiren filtreyi uygulamak için, hızlı Fourier dönüşümü (FFT) kullanarak zaman-alanlı EMG sinyalini frekans-alanına dönüştürdük ve yüksek frekanslı sinyalleri filtreledikten sonra, ters FFT'yi kullanarak sinyali tekrar zaman alanına dönüştürdük. Dokuz kanaldan (8 sEMG sensörleri ve toplamı) zaman-alanı ve zaman-frekans-alanı özelliklerini ve IMU'larda bir zaman-alanı özelliğini (ortalama) çıkardık. Bir örnekteki filtrelenmiş EMG sinyallerinden beş zaman-alanı özelligi çıkardık; ortalama mutlak değer (MAV), eğim işareti değişikliği(SSC), dalga formu uzunluğu (WL), ortalama kare kare (RMS) ve Hjorth parametreleri (HP).Bir örnekteki ham EMG sinyalinden öznitelikleri çıkarmak için dört katmanlı Daubechies 5 dalgacık ile ayrı dalgacık dönüşümleri kullandık. Herhangi bir sınıflandırıcıyı eğitmeden önce, girdileri tüm özelliklerden eşit katkı sağlayacak şekilde standartlaştırıyoruz (sıfır ortalama ve 1 standart sapmaya sahip olacak şekilde dönüştürülür). Bu çalışmada, doğruluk puanını bildirmek için çapraz-doğrulama bir-denek-dışında-bırakmak prosedürü kullandık. Çok Katmanlı Algılayıcı (MLP) ve Rastgele Orman (RF) sınıflandırıcıları, veri kümesi üzerinde eğitilir. MLP'nin eğitilemeyen parametreleri (hiper parametreler) (kayıp fonksiyonu, katman sayısı ve düzenleme gücü gibi) ve RF (ağaçlarda seçim kriteri, ağaç sayısı ve ağaçların derinliği gibi) geniş bir olası kombinasyon yelpazesi üzerinden ayarlanıp seçildi. Bu sınıflandırıcıların TSL'nin tüm statik işaretleri için doğruluğu çok düşüktü. Genel olarak, RF sınıflandırıcı MLP'den daha iyi çalıştı, bu yüzden RF ile devam ettik. EMG sinyaliyle bir kez eğitilen ve herkes için çalışan genel bir model karmaşıktır çünkü EMG sinyal zarfları kullanıcılar arasında ve aynı kullanıcının içinde farklılıklar gösterir. EMG ve IMU'ların özelliklerini daha fazla araştırmak için beş tane daha güvenilir işareti seçtik. EMG ve IMU'ların zaman alanı ve zaman-frekans alanı özelliklerini kullanarak elde edilen en yüksek doğruluk oranı %54,2'dir. Sınıflandırıcıların genel doğruluğu, kadınlara göre erkeklerde daha iyi performans göstermektedir. Erkekler ve kadınlar arasındaki farkı araştırmak için t-dağıtılmış stokastik komşu gömme (t-SNE) kullandık. Kadın hareketlerinin erkeklerden daha yaygın olduğunu bulduk. Bu nedenle kadınlar için kabul edilebilir doğrulukta herhangi bir sınıflandırıcı uyduramadık. Erkek denekler için, sınıflandırıcı %78 doğrulukla sonuçlandı. Sınıflandırıcı, bu işaretler arasında (O Hand, ASL O) ve (Thumb, ASL L) büyük bir doğrulukla ayırt edemez. Bu yanlış sınıflandırma, bir kavisteki işaretlerin birbirine çok benzer olmasıdır; akabinde, ASL O ve ASL L genellikle O Hand ve Thumb'dan daha fazla kas gücüyle yapılır. Bu çalışmada, simüle edilmiş insansı robot Pepper'ın elinin davranışını Myo armband'dan tanınan işaretlerle kontrol ettik. Bu çalışma, belirli bir robotun/robotların ilgi dışı olduğu ve Myo armband, Leap Motion ve diğer işaret tanıma cihazları gibi farklı teknolojilerin aynı sistem üzerinde birlikte kullanılacağı büyük bir projenin (robotların çocuklarla çok modelli bir şekilde iletişim kurmasını sağlayan) bir parçasıdır. Bu nedenle projemizin amacını göz önünde bulundurarak, Pepper robotunun davranışını kontrol etmek için robot işletim sistemini (ROS) kullandık. Ayrıca, Pepper versiyonlarının sürücüleri ile süre sınırı arasındaki tutarsızlık nedeniyle, fiziksel bir robot yerine robotik bir simülatör olan Gazebo kullandık. TSL işaretleri birbirine çok benziyor ve parmakların pozisyonunda küçük bir değişiklik olunca, yeni bir işaret anlamına geliyor. Ek olarak, EMG sinyalleri bir hareket için sınıflar arası ve sınıf içi varyasyonlara sahiptir. Bu iki sorun, EMG sensörleri ile TSL işaretlerinin tespit edilmesini zorlaştırır. TSL işaretlerini sEMG ile tespit etmek mümkündür, ancak hareketlerin doğruluğu ve sayısı doğrudan elektrotların kalitesi ve sayısı ile ilgilidir. Dahası, jiroskop ve ivmeölçer IMU'ları dinamik TSL işaretlerini tanıyabilirler ancak statik işaretleri ayırtamıyorlar. Oryantasyon IMU'ları statik TSL işaretlerini sınıflandırmada etkili olabilir, ancak sensörün Myo armband'ın manyetometre IMU sensöründen daha doğru olması gerekir. Gelecekteki çalışmalarda bu sistemi insanların, özellikle işitme engelli bireylerin robotlarla iletişimini ve etkileşimini arrtırmak ve fiziksel robotların çocukların öğrenme süreçlerindeki başarı oranını değerlendirmeye çalışacağız.

Özet (Çeviri)

Humans are socially intelligent beings the have complex connections to their environment. From the time they are born, children learn social skills from their experiences with family and other society members. Social skills have a positive correlation with one's social behavior, personal behavior, and cognitive ability. If a child could not develop these skills at an early age, he/she will have a problem in establishing social relationships and understanding a language (reading, writing, and grammar). Hearing and speaking are the primary tools for humans to establish a connection with their environment. Deaf children, on the other hand, due to lack of hearing, cannot connect with the people around them like hearing children—this lack of communication results in hindering social skills and delay their cognitive development. If they cannot overcome this problem, it may even result in a permanent deficiency. Thus, a hearing-impaired child requires more support from their family, school, and society. Human-robot interaction (HRI) can compensate deaf children for learning language and learning social skills. Some deaf children may find humans' social behavior very complex; the level of interaction with the HRI can be adjusted according to a child. This work's base motivation is to develop a sign recognizer model in a robotic platform to ease social skills learning in deaf children. Due to its unique linguistic properties and some unique signs, sign languages are different; in this work, we consider Turkish sign language (TSL), which is practiced in various Turkey regions. Myo armband, a commercially available device with electromyography (EMG) and inertial measurement units (IMUs) sensors, is used to recognize static signs of TSL. This armband is ready to use and can be easily connected with personal computers through a Bluetooth dongle. Electromyography is the evaluation of the electrical signal in the muscle. The electrical signal is generated when the muscle is contracted. The electrical signal for EMG is recorded through electrodes. There are different EMG electrodes, such as needle-like, commonly used in electrodiagnostic testing, and surface-like, often used in rehabilitation. The EMG signal from muscle becomes noisy due to many factors such as skin disposition, the velocity of blood flow, skin warmth, muscle construction, and measuring. Inertial Measurement Unit is a whole navigation device for measuring directions in three axes. Gyroscopes, accelerometers, and magnetometers are included as the inertial sensors. The angular rates from gyroscopes measure attitude, accelerometers outputs are accelerations for position determination, and magnetometers output are for the absolute orientation calculation. We obtained EMG and IMUs data of ten healthy participants. Half of them were females around 21-26 years old with an average of 23.8, and the other five were males between 27-37 years of age with a 29.6 average. The data is recorded for stationary signs of Turkish Sign Language through Myo armband. Participants used their dominant hand where only one female used the device in her left hand. The gestures were performed without contracting the muscles with excess strength and moved their hand in any direction of hand joints (wrist, elbow, and shoulder). We segmented the data into samples using the window technique with a size of 40 and 10 for EMG and IMUs, respectively. Sign gestures are more correlated with orientation than gyroscope and accelerometer; thus, we did not use any fusion algorithm on IMUs, which can perform better on gyroscope and accelerometer values. Inertial Measurement Units were not preprocessed because the preprocessing does not increment the accuracy considerably in classifications. We used quaternion values for orientation, representing the position in four values rather than 3-axis Eular coordinates because they are more stable than other orientations. EMG noises, a wide range of noise resulting from inherent noise and movement artifacts, can be filtered significantly with a low-pass filter (allowing only low-frequency signals). Before applying the filter, we rectified the electromyography signal and then transformed it to frequency-domain using fast Fourier transform. The high-frequency signals are cleared, and the signal is transformed back to time-domain by inverse fast Fourier transform. Features are extracted from the electromyography signals from both their time and time-frequency domains. This feature extraction is applied to the output of each electrode separately in addition to their cumulative sum. The features extracted from time-domain signals are waveform length, Hjorth parameters, mean, root mean square, and slope sign change. The signal is transformed through the Daubechies 5 wavelet (a fast implementation of discrete wavelet transform) into four layers. Subsequently, the features are obtained from the ratios of different transformed signal components from different layers. Furthermore, only the mean value is computed for each unit of the inertial sensors. Before training any classifier, we standardize the inputs to have an equal contribution from all features; therefore, we normalized the input data with zero mean and unit variance. In this thesis, the accuracy metric is based on a cross-validation technique such that each time the data from one subject was fully considered the test set. The Machine Learning based classifiers; Artificial Neural Network, and an ensemble model of Decision Trees (Random Forest) are trained to classify hand gestures. The non-trainable parameters (hyper-parameters) of MLP (such as the loss function, number of layers, and regularization strength) and RF (such as selection criterion in trees, number of trees, and depth of trees) are tunned with random selection over a wide range of possible combinations. The accuracy of these classifiers for all static signs of TSL was very low. Pretty much across all the signs, the Random Forest classifier performed better in recognizing signs than Artificial Neural Network, so we advanced with Random Forest. When a gesture is performed, the envelope of electromyography signals varies for the same gesture performed by the different users. Additionally, the variation also exists between two envelopes of signal performed by the same user for the same gesture. Thus, constructing a general model that can be used by new users based on electromyography signals is very complicated. Our general model for all the static signs of Turkish Sign Language had a low accuracy score, but it gave us the intuition that which signs are more capable of being recognized with Myo armband. Furthermore, to assess electromyography and inertial sensors' characteristics, we selected five reliable signs and proceeded with our research. The highest classification accuracy, 54.2%, is achieved when all the extracted features from electromyography and inertial sensors were used. The machine learning models were better at recognizing the gestures performed by males than the female participants. To scrutinize the discrepancy in accuracy score based on gender, we plotted the gestures in the two-dimensional plane using t-distributed stochastic neighbor embedding. The female gestures were more disperse than male gestures in the plots; we inferred that this is because the female subject had performed the signs with less muscular strength than the male. Therefore, training a machine learning classifier with reasonable accuracy on the female is more complicated. The Random Forest model trained solely on the male subjects for the five selected signs from Turkish Sign Language classifies the signs correctly 78% of the time. The signs ASL-O and ASL-L have generally performed with more muscular strength than their similar signs O-Hand and Thumb, respectively; thus, the model is less accurate in detecting the O-Hand and Thumb signs. In this work, we controlled the hand's behavior of the simulated humanoid robot Pepper with the signs recognized through the Myo armband. This work is a part of a big project (enabling robots to interact with children in a multimodel platform) where many robots and different technologies such as Myo armband, Leap Motion, and other devices for sign recognition will work together on the same system. Thus considering our project's aim, we used the robot operating system (ROS) to control the Pepper robot's behavior. Furthermore, because of inconsistency between drivers of Pepper's versions and the time limit, we used Gazebo, a robotic simulator, instead of a physical robot. The TSL signs are very similar to each other with a little change in the fingers' position, a new sign is performed. Additionally, EMG signals have inter-class and intra-class variations for a gesture. These two issues make the detections of TSL signs with EMG sensors challenging. It is possible to detect TSL signs with sEMG, but the accuracy and number of gestures are directly related to the electrodes' quality and number. Moreover, the gyroscope and accelerometer IMUs can recognize dynamic TSL signs but not static signs. The orientation IMUs can be efficient at classifying static TSL signs, but the sensor needs to be more accurate than the Myo armband's magnetometer IMU sensor. The obtained results from this work motivate us to develop our model and the HRI platform further. In future work, we will try to overcome the gender problem and evaluate physical robots' success rate in children's learning processes.

Benzer Tezler

  1. Machine learning techniques for surface electromyography based hand gesture recognition

    Yüzey elektromiyografi temelli el jesti tanıma için makine öğrenmesi teknikleri

    ENGİN KAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR

  2. Creating a generic hand and finger gesture recognizer by using forearm muscle activity signals

    Ön kol kas hareketlerinden oluşan sinyalleri kullanarak el ve parmak işaretlerini tanıyan jenerik bir sistem geliştirme

    UMUT DEMİREL

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Modelleme ve Simülasyon Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN HACIHABİBOĞLU

    YRD. DOÇ. DR. ELİF SÜRER

  3. Query-by-sign system for Turkish sign language broadcasts

    Türk işaret dili haber videoları için işaret dili sorgulama arama sistemi

    JÜLİDE GÜLEN KADAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  4. Gesture learner machine for recognizing symbols and numbers

    Sembolleri ve sayıları tanıma için hareket öğrenen makine

    CHYA FATAH AZIZ AZIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. ASAF VAROL

  5. Deep learning based dynamic turkish sign language recognition with leap motion

    Derin öğrenme tabanlı leap motıon ile dinamik türk işaret dili tanıma

    BURÇAK DEMİRCİOĞLU KAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HATİCE KÖSE