Evrişimsel sinir ağları kullanılarak video tabanlı izole işaret dili tanıma

Video-based isolated sign language recognition using convolutional neural networks

PDF İndir

Tez No: 889179
Yazar: ALİ AKDAĞ
Danışmanlar: DOÇ. DR. ÖMER KAAN BAYKAN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Konya Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 132

Özet

İşaret dili dünya genelinde milyonlarca işitme engelli birey için temel bir iletişim aracıdır. Ancak, işaret dilini anlamak ve kullanmak, işitenler arasında yaygın bir beceri değildir, bu da işitme engelli bireyler arasında sosyal izolasyon riskini artırır. Bu tez, kelime tabanlı İşaret Dili Tanıma (İDT - Sign Language Recognition, SLR) teknolojilerindeki mevcut kısıtlamaları ele alarak, bu alandaki algılama doğruluğunu ve genellenebilirliğini artırmayı hedeflemektedir. Bu kapsamda üç ana çalışma üzerinden, işaret dilinin manuel ve manuel olmayan unsurları kapsamlı bir şekilde analiz edilerek, derin öğrenme tabanlı sistemler sunulmuştur. İlk çalışmada, R3D ve R(2+1)D evrişim bloklarının avantajlarını birleştiren R3(2+1)D-SLR ağı önerilmiştir. Bu ağ, uzamsal ve zamansal özellikleri etkili bir şekilde çıkararak, işaret dili tanımada yüksek doğruluk ve sağlamlık sunar. R3(2+1)D-SLR tabanlı geliştirilen işaret dili tanıma sistemi, işaretçinin vücut, el ve yüzünden elde edilen verileri bir araya getirerek, Destek Vektör Makinesi (DVM) kullanımıyla sınıflandırma yapmaktadır. Önerilen sistemde RGB verileri yerine görsel poz verileri kullanılmasıyla arka plan çeşitliliğine karşı doğruluk ve sağlamlıkta önemli iyileştirmeler sağlandığı gösterilmiştir. Bu sistem BosphorusSign22k-genel ve LSA64 veri kümelerinde işaretçiden bağımsız değerlendirmelerde %94,52 ve %98,53 test doğruluğu elde etmiştir. İkinci çalışma, izole İDT görevi için yenilikçi bir yaklaşım sunmaktadır, bu yaklaşım poz verilerini, bu verilerden türetilen Hareket Tarihçesi Görüntüleri (HTG) ile entegre etmeye odaklanır. Araştırma, vücut, el ve yüz pozlarından elde edilen uzamsal bilgileri işaretin zamansal dinamiklerini yansıtan üç kanallı HTG verileriyle bütünleştirir. Özellikle, geliştirilen parmak pozu tabanlı HTG özelliği, İDT'deki mevcut yaklaşımlara göre parmak hareketlerinin ve jestlerin nüanslarını daha başarılı bir şekilde yakalamaktadır. Bu özellik, işaret dilinin zengin detaylarını daha doğru bir şekilde işleyerek sistemin doğruluğunu ve güvenilirliğini artırmaktadır. Ek olarak, doğrusal enterpolasyon kullanılarak eksik poz verilerinin tamamlanması genel model performansını iyileştirmiştir. Rastgele Sızdıran Düzeltilmiş Doğrusal Birim (RReLU) ile güçlendirilmiş ResNet-18 modeli temelinde elde edilen özelliklerin birleşimi ve DVM ile sınıflandırma yoluyla manuel ve manuel olmayan özellikler arasındaki etkileşim başarıyla ele alınmıştır. Bu entegre yöntem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümelerinde yapılan deneylerde sırasıyla %96,94, %94,87, %98,68 ve %95,14 doğruluk elde ederek mevcut metodolojilere kıyasla rekabetçi ve üstün sonuçlar göstermiştir. Üçüncü çalışma, işaret dili tanımada parmakların özelliklerine ve konfigürasyonlarına odaklanarak yenilikçi bir, çok kanallı yaklaşım sunmaktadır. Ayrı kanallarda işlenen görsel parmak pozu verilerine dayanan bu yaklaşım, parmak hareketlerinin detaylı analizini sağlamak üzere tasarlanmıştır. Önerilen Çok-Kanallı MobileNetV2 modeli, parmaklara dair çok kanallı verileri kullanarak işaret dili tanıma sürecinde yüksek doğruluk ve hassasiyet sunmaktadır. Çalışma ayrıca, poz verilerinden elde edilen vücut ve yüz bilgilerinin işlenmesiyle, işaret dilinin manuel olmayan özelliklerini de entegre etmektedir. Önerilen sistem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümeleri üzerinde sırasıyla %97,15, %95,13, %98,93 ve %95,37 gibi kayda değer doğruluk oranları elde etmiştir. Bu sonuçlar, önerilen yöntemin genellenebilirliğini ve uyarlanabilirliğini vurgulayarak, işaret dili tanıma literatüründeki mevcut çalışmalara göre rekabet üstünlüğünü kanıtlamaktadır. Bu tez, işaret dili tanıma teknolojilerindeki yenilikçi yaklaşımların, işaret dilinin zenginliğini ve ince ayrıntılarını daha doğru bir şekilde yakalayarak iletişim engellerini azaltma potansiyeline işaret etmektedir. Her üç çalışma da farklı veri kümelerinde yüksek doğruluk oranları elde ederek, pratik uygulamalarda İDT sistemlerinin etkinliğini ve güvenilirliğini artırmıştır.

Özet (Çeviri)

Sign language is a fundamental communication tool for millions of hearing-impaired individuals worldwide. However, understanding and using sign language is not a common skill among hearing individuals, which increases the risk of social isolation for the hearing-impaired. This thesis addresses the current limitations in word-based Sign Language Recognition (SLR) technologies, aiming to enhance the accuracy and generalizability of detection in this field. In this context, through three main studies, both the manual and non-manual elements of sign language are comprehensively analyzed, presenting deep learning-based systems. In the first study, the R3(2+1)D-SLR network, which combines the advantages of R3D and R(2+1)D convolutional blocks, was proposed. This network effectively extracts spatial and temporal features, providing high accuracy and robustness in sign language recognition. The sign language recognition system developed based on the R3(2+1)D-SLR architecture integrates data obtained from the signer's body, hands, and face, and classifies it using Support Vector Machines (SVM). The proposed system demonstrates significant improvements in accuracy and robustness against background variability by using visual pose data instead of RGB data. This system achieved test accuracies of 94,52% and 98,53% in signer-independent evaluations on the BosphorusSign22k-general and LSA64 datasets, respectively. The second study presents an innovative approach for the task of isolated SLR, focusing on integrating pose data with derived Motion History Images (MHI). The research combines spatial information obtained from body, hand, and face poses with three-channel MHI data that reflect the temporal dynamics of the sign. Notably, the developed finger-pose-based MHI feature captures the nuances of finger movements and gestures more successfully than current approaches in SLR. This feature enhances the system's accuracy and reliability by more accurately processing the rich details of sign language. Additionally, the use of linear interpolation to complete missing pose data has improved overall model performance. The combination of features obtained from the ResNet-18 model enhanced with Randomized Leaky Rectified Linear Units (RReLU) and classification through SVM has successfully addressed the interaction between manual and non-manual features. This integrated method has demonstrated competitive and superior results compared to existing methodologies, achieving accuracies of 96,94%, 94,87%, 98,68%, and 95,14% in experiments conducted on the BosphorusSign22k-general, BosphorusSign22k, LSA64, and GSL datasets, respectively. The third study introduces an innovative multi-channel approach focusing on the characteristics and configurations of fingers in sign language recognition. Based on visual finger pose data processed in separate channels, this approach is designed to provide detailed analysis of finger movements. The proposed Multi-Channel MobileNetV2 model utilizes multi-channel data on fingers to offer high accuracy and precision in the sign language recognition process. Additionally, the study incorporates non-manual features of sign language by processing body and face information derived from pose data. The proposed system has achieved notable accuracy rates of 97,15%, 95,13%, 98,93%, and 95,37% on the BosphorusSign22k-general, BosphorusSign22k, LSA64, and GSL datasets, respectively. These results highlight the generalizability and adaptability of the proposed method, proving its competitive superiority over existing studies in the sign language recognition literature. This thesis indicates that innovative approaches in sign language recognition technology have the potential to reduce communication barriers by more accurately capturing the richness and subtle details of sign language. All three studies have achieved high accuracy rates across different datasets, enhancing the effectiveness and reliability of SLR systems in practical applications.

Benzer Tezler

Tez No
761184
Attention modeling with temporal shift in sign language recognition
İşaret dili tanımada zamansal kayma ile dikkat modellemesi
AHMET FARUK ÇELİMLİ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
Tez No
676432
Detection of humans in video streams using convolutional neural networks
Başlık çevirisi yok
AMEEN MUDHER ABBAS ALDULAIMI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEFER KURNAZ
Tez No
846032
Türevlenebilir işleme ile kamera yeniden konumlandırma
Camera relocalization via differentiable rendering
MUHAMMED KERİM SOLMAZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İskenderun Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET SARIGÜL
Tez No
953776
Investigation of wavelength and intensityeffects in infrared-based eye tracking systemsunder variable lighting and obstructive conditions
Kızılötesi tabanlı göz takibi cihazlarıiçin dalgaboyu ve yoğunluk etkisinin değişkenışık ve engelleyici etkiler altında incelenmesi
MURAT TEKSİN
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ONUR FERHANOĞLU
Tez No
444255
Deep convolutional neural network based representations for person re-identification
Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller
ALPER ULU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL

Geri Dön