American sign language recognitionusing YOLOv4 method

Amerikan işaret dili tanımıYOLOv4 yöntemini kullanma

PDF İndir

Tez No: 747142
Yazar: ALI MAHMOOD SHAKIR AL-SHAHEEN
Danışmanlar: YRD. DOÇ. DR. MESUT ÇEVİK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Altınbaş Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 61

Özet

İşaret dili, çoğunlukla sağır ve dilsiz insanlar arasında iletişim kurmak için bir iletişim aracıdır. düşünce ve duygularını kendi aralarında veya normal insanlar arasında Ayrıca belirtilebilir işaret dilinin belirli kelime dağarcığı ve ilgili gramer ve sözlükleri vardır. Var coğrafi veya bağlamına göre farklılık gösteren farklı işaret dili türleri Bu araştırmada Amerikan İşaret Dili, İngiliz İşaret Dili, Japonca vb. diller, Amerikan İşaret Dili'ne odaklanacağız. İşaret dili basit kelimelerle belirli kelimeleri içerir. anne, baba, merhaba gibi bu jestlerle kolayca yorumlanabilen kendi jestleri, Seni seviyorum vb. Ancak, çağrılabilecek belirli hareketleri olmayan kelimeler var. kolayca, bu nedenle, telaffuz edilecek kelimeyi hecelemek için parmakla heceleme adı verilen bir teknik kullanılır. harfler, çünkü yıldaki herhangi bir dilin her harfinin, diğerlerinden farklı olan kendi jest veya işareti vardır. diğer harflerin jestleri. Genellikle, bu teknik adı hecelemek için kullanılır. Daha önce orada derin öğrenme algoritmalarının tanıtılmasından önce işaret dili üzerine çok az araştırma yapıldı veya makine öğrenimi algoritmaları. İşaret dilini yorumlamanın ve çevirmenin en çok kullanılan yolu bir bilgisayar, görüntüleri işleyebilen nesneleri keşfetmek için derin öğrenme algoritmaları oluşturmaktır. ve görüntülerden önemli özellikleri çıkarın ve ardından öğrenmek için evrişimli sinir ağlarını kullanın. bu özellikler ve üzerlerinde tren modelleri. Derin öğrenme ve makine öğrenimindeki büyük gelişmeler resim ve videolardaki nesneleri ve nesneleri algılamak için algoritmaların oluşturulmasına yol açmıştır, vi sorgulayabilecekleri, sınıflandırabilecekleri ve sinir ağları ile yaptıkları çalışmalarla ilişkili resimlerdeki ve videolardaki nesneleri insanlar, arabalar, hayvanlar, trafik ışıkları gibi çeşitli kategorilere ayırın ve İşaret dili hareketleri vb. Sadece Bir Kez Bakarsınız (YOLO) nesnelerin görüntüler, videolar veya gerçek zamanlı olarak algılandığı belirli veri kümesi. Bunda araştırma, hareketlerden ve işaretlerden ASL çevirisini algılayabilen bir sistem kuracağız. Yazar tarafından oluşturulan 8000 görüntüden oluşan bir veri setine dayalı kelimeler, harfler ve sayılar 40 sınıfa bölünmüş, her sınıf ya bir harfi ya da bir sayıyı ya da bir kelimeyi temsil eder ve 200 aurayı temsil eder. Her sınıf için farklı aydınlatma koşulları altında mükemmel bir doğrulukla fotoğraflandı ve farklı boyutlardan. bu da modelin işaretleri ne olursa olsun ayırt edebilmesini sağlar. aydınlatmanın yoğunluğu veya görüntünün netliği. Ve modeli eğittikten sonra veri seti birçok kez, görüntü verilerini kullanan deneyde MAP açısından çok iyi sonuçlar aldık = doğruluk olarak %98.01 ve mevcut ortalama kayıp=1.3 ve nihai sonuç olarak geri çağırma=0.96 ve F1=0.96, ve video sonuçları için aynı doğruluğa ve saniyede 28,9 kareye (fps) sahiptir.

Özet (Çeviri)

Sign language is a means of communication mainly between deaf and mute people to communicate their thoughts and feelings among themselves or between normal people. It can also be indicated that sign language has specific vocabulary and associated grammar and dictionaries. There are different types of sign language that differ geographically or according to the context of the language such as American Sign Language, British Sign Language, Japanese etc., in this research, we will focus on American Sign Language. Sign language contains certain words with simple gestures of their own that can be easily interpreted through these gestures such as mom, dad, hello, I love you, etc. However, there are words that do not have specific gestures that can be invoked easily, so a technique called fingerspelling is used to spell the word to be pronounced through letters because each letter of any language in the year has its own gesture or sign that differs from the gestures of other letters. Usually, this technique is used to spell the name. Previously, there was very little research on sign language before the introduction of deep learning algorithms or machine learning algorithms. The most used way to interpret and translate sign language through a computer is to build deep learning algorithms to discover objects that are able to process images and extract important features from images and then use convolutional neural networks to learn these features and train models on them. The great advances in deep learning and machine learning have led to the construction of algorithms for detecting objects and objects in images and videos, vi which are associated with their work with neural networks, where they can challenge, classify and sort objects in images and videos into several categories such as people, cars, animals, traffic lights and Sign language gestures etc. You Look Only Once (YOLO) is a model that can be trained on a specific dataset in which objects are detected through images, videos, or in real-time. In this research, we will build a system capable of detecting ASL translation from gestures and signs to words, letters and numbers based on a data set created by the author, which consists of 8000 images divided into 40 classes, each class represents either a letter or a number or a word, and 200 auras for each class were photographed with excellent accuracy under different lighting conditions and from different dimensions. which allows the model to be able to differentiate the signs regardless of the intensity of the lighting or the clarity of the image. And after training the model on the dataset many times, in the experiment using image data we got very good results in terms of MAP = 98.01% as accuracy and current average loss=1.3 and recall=0.96 and F1=0.96 as a final result, and for video results, it has the same accuracy and 28.9 frames per second (fps).

Benzer Tezler

Tez No
343822
Kinect rgb görüntülerinde ve derinlik haritalarında uzam-zamansal özellikleri kullanarak işaret dili tanıma
Sign language recognition using spatio-temporal features on Kinect rgb video sequences and depth maps
ABBAS MEMİŞ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SONGÜL ALBAYRAK
Tez No
903731
İşaret dili karakterlerinin karmaşık değerli sinir ağları ile tanınması
Recognition of sign language characters using complex-valued neural networks
SELDA BAYRAK
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karadeniz Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. VASİF NABİYEV
Tez No
168293
Hand gesture recognition using artifical neural networks
El işaretlerinin yapay sinir ağları ile algılanması
GÖRKEM GÖKNAR
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik Mühendisliği Yeditepe Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ.DR. TÜLAY YILDIRIM
Tez No
889776
The nature of object marking in American sign language
Amerikan işaret dilinde nesne işaretlemenin doğası
KADİR GÖKGÖZ
Doktora
İngilizce
2013
Dilbilim Purdue University
Dilbilim Ana Bilim Dalı
PROF. DR. RONNIE WILBUR
Tez No
767743
The effect of computer assisted foreign language learning via American sign language on vocabulary learning of individuals with hearing impairment
Amerikan işaret dili yoluyla bilgisayar destekli yabancı dil öğreniminin işitme engelli öğrencilerin kelime öğrenimi üzerindeki etkisi
ÇAĞLA DENİZ PULAT
Yüksek Lisans
İngilizce
2021
Eğitim ve Öğretim Bursa Uludağ Üniversitesi
Yabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. ESİM GÜRSOY

Geri Dön