Geri Dön

Evrişimsel sinir ağları kullanılarak video tabanlı izole işaret dili tanıma

Video-based isolated sign language recognition using convolutional neural networks

  1. Tez No: 889179
  2. Yazar: ALİ AKDAĞ
  3. Danışmanlar: DOÇ. DR. ÖMER KAAN BAYKAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Konya Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 132

Özet

İşaret dili dünya genelinde milyonlarca işitme engelli birey için temel bir iletişim aracıdır. Ancak, işaret dilini anlamak ve kullanmak, işitenler arasında yaygın bir beceri değildir, bu da işitme engelli bireyler arasında sosyal izolasyon riskini artırır. Bu tez, kelime tabanlı İşaret Dili Tanıma (İDT - Sign Language Recognition, SLR) teknolojilerindeki mevcut kısıtlamaları ele alarak, bu alandaki algılama doğruluğunu ve genellenebilirliğini artırmayı hedeflemektedir. Bu kapsamda üç ana çalışma üzerinden, işaret dilinin manuel ve manuel olmayan unsurları kapsamlı bir şekilde analiz edilerek, derin öğrenme tabanlı sistemler sunulmuştur. İlk çalışmada, R3D ve R(2+1)D evrişim bloklarının avantajlarını birleştiren R3(2+1)D-SLR ağı önerilmiştir. Bu ağ, uzamsal ve zamansal özellikleri etkili bir şekilde çıkararak, işaret dili tanımada yüksek doğruluk ve sağlamlık sunar. R3(2+1)D-SLR tabanlı geliştirilen işaret dili tanıma sistemi, işaretçinin vücut, el ve yüzünden elde edilen verileri bir araya getirerek, Destek Vektör Makinesi (DVM) kullanımıyla sınıflandırma yapmaktadır. Önerilen sistemde RGB verileri yerine görsel poz verileri kullanılmasıyla arka plan çeşitliliğine karşı doğruluk ve sağlamlıkta önemli iyileştirmeler sağlandığı gösterilmiştir. Bu sistem BosphorusSign22k-genel ve LSA64 veri kümelerinde işaretçiden bağımsız değerlendirmelerde %94,52 ve %98,53 test doğruluğu elde etmiştir. İkinci çalışma, izole İDT görevi için yenilikçi bir yaklaşım sunmaktadır, bu yaklaşım poz verilerini, bu verilerden türetilen Hareket Tarihçesi Görüntüleri (HTG) ile entegre etmeye odaklanır. Araştırma, vücut, el ve yüz pozlarından elde edilen uzamsal bilgileri işaretin zamansal dinamiklerini yansıtan üç kanallı HTG verileriyle bütünleştirir. Özellikle, geliştirilen parmak pozu tabanlı HTG özelliği, İDT'deki mevcut yaklaşımlara göre parmak hareketlerinin ve jestlerin nüanslarını daha başarılı bir şekilde yakalamaktadır. Bu özellik, işaret dilinin zengin detaylarını daha doğru bir şekilde işleyerek sistemin doğruluğunu ve güvenilirliğini artırmaktadır. Ek olarak, doğrusal enterpolasyon kullanılarak eksik poz verilerinin tamamlanması genel model performansını iyileştirmiştir. Rastgele Sızdıran Düzeltilmiş Doğrusal Birim (RReLU) ile güçlendirilmiş ResNet-18 modeli temelinde elde edilen özelliklerin birleşimi ve DVM ile sınıflandırma yoluyla manuel ve manuel olmayan özellikler arasındaki etkileşim başarıyla ele alınmıştır. Bu entegre yöntem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümelerinde yapılan deneylerde sırasıyla %96,94, %94,87, %98,68 ve %95,14 doğruluk elde ederek mevcut metodolojilere kıyasla rekabetçi ve üstün sonuçlar göstermiştir. Üçüncü çalışma, işaret dili tanımada parmakların özelliklerine ve konfigürasyonlarına odaklanarak yenilikçi bir, çok kanallı yaklaşım sunmaktadır. Ayrı kanallarda işlenen görsel parmak pozu verilerine dayanan bu yaklaşım, parmak hareketlerinin detaylı analizini sağlamak üzere tasarlanmıştır. Önerilen Çok-Kanallı MobileNetV2 modeli, parmaklara dair çok kanallı verileri kullanarak işaret dili tanıma sürecinde yüksek doğruluk ve hassasiyet sunmaktadır. Çalışma ayrıca, poz verilerinden elde edilen vücut ve yüz bilgilerinin işlenmesiyle, işaret dilinin manuel olmayan özelliklerini de entegre etmektedir. Önerilen sistem, BosphorusSign22k-genel, BosphorusSign22k, LSA64 ve GSL veri kümeleri üzerinde sırasıyla %97,15, %95,13, %98,93 ve %95,37 gibi kayda değer doğruluk oranları elde etmiştir. Bu sonuçlar, önerilen yöntemin genellenebilirliğini ve uyarlanabilirliğini vurgulayarak, işaret dili tanıma literatüründeki mevcut çalışmalara göre rekabet üstünlüğünü kanıtlamaktadır. Bu tez, işaret dili tanıma teknolojilerindeki yenilikçi yaklaşımların, işaret dilinin zenginliğini ve ince ayrıntılarını daha doğru bir şekilde yakalayarak iletişim engellerini azaltma potansiyeline işaret etmektedir. Her üç çalışma da farklı veri kümelerinde yüksek doğruluk oranları elde ederek, pratik uygulamalarda İDT sistemlerinin etkinliğini ve güvenilirliğini artırmıştır.

Özet (Çeviri)

Sign language is a fundamental communication tool for millions of hearing-impaired individuals worldwide. However, understanding and using sign language is not a common skill among hearing individuals, which increases the risk of social isolation for the hearing-impaired. This thesis addresses the current limitations in word-based Sign Language Recognition (SLR) technologies, aiming to enhance the accuracy and generalizability of detection in this field. In this context, through three main studies, both the manual and non-manual elements of sign language are comprehensively analyzed, presenting deep learning-based systems. In the first study, the R3(2+1)D-SLR network, which combines the advantages of R3D and R(2+1)D convolutional blocks, was proposed. This network effectively extracts spatial and temporal features, providing high accuracy and robustness in sign language recognition. The sign language recognition system developed based on the R3(2+1)D-SLR architecture integrates data obtained from the signer's body, hands, and face, and classifies it using Support Vector Machines (SVM). The proposed system demonstrates significant improvements in accuracy and robustness against background variability by using visual pose data instead of RGB data. This system achieved test accuracies of 94,52% and 98,53% in signer-independent evaluations on the BosphorusSign22k-general and LSA64 datasets, respectively. The second study presents an innovative approach for the task of isolated SLR, focusing on integrating pose data with derived Motion History Images (MHI). The research combines spatial information obtained from body, hand, and face poses with three-channel MHI data that reflect the temporal dynamics of the sign. Notably, the developed finger-pose-based MHI feature captures the nuances of finger movements and gestures more successfully than current approaches in SLR. This feature enhances the system's accuracy and reliability by more accurately processing the rich details of sign language. Additionally, the use of linear interpolation to complete missing pose data has improved overall model performance. The combination of features obtained from the ResNet-18 model enhanced with Randomized Leaky Rectified Linear Units (RReLU) and classification through SVM has successfully addressed the interaction between manual and non-manual features. This integrated method has demonstrated competitive and superior results compared to existing methodologies, achieving accuracies of 96,94%, 94,87%, 98,68%, and 95,14% in experiments conducted on the BosphorusSign22k-general, BosphorusSign22k, LSA64, and GSL datasets, respectively. The third study introduces an innovative multi-channel approach focusing on the characteristics and configurations of fingers in sign language recognition. Based on visual finger pose data processed in separate channels, this approach is designed to provide detailed analysis of finger movements. The proposed Multi-Channel MobileNetV2 model utilizes multi-channel data on fingers to offer high accuracy and precision in the sign language recognition process. Additionally, the study incorporates non-manual features of sign language by processing body and face information derived from pose data. The proposed system has achieved notable accuracy rates of 97,15%, 95,13%, 98,93%, and 95,37% on the BosphorusSign22k-general, BosphorusSign22k, LSA64, and GSL datasets, respectively. These results highlight the generalizability and adaptability of the proposed method, proving its competitive superiority over existing studies in the sign language recognition literature. This thesis indicates that innovative approaches in sign language recognition technology have the potential to reduce communication barriers by more accurately capturing the richness and subtle details of sign language. All three studies have achieved high accuracy rates across different datasets, enhancing the effectiveness and reliability of SLR systems in practical applications.

Benzer Tezler

  1. Attention modeling with temporal shift in sign language recognition

    İşaret dili tanımada zamansal kayma ile dikkat modellemesi

    AHMET FARUK ÇELİMLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN ERSOY

  2. Detection of humans in video streams using convolutional neural networks

    Başlık çevirisi yok

    AMEEN MUDHER ABBAS ALDULAIMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEFER KURNAZ

  3. Türevlenebilir işleme ile kamera yeniden konumlandırma

    Camera relocalization via differentiable rendering

    MUHAMMED KERİM SOLMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİskenderun Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET SARIGÜL

  4. Deep convolutional neural network based representations for person re-identification

    Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

    ALPER ULU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  5. Algısal özet fonksiyonları tabanlı derin öğrenme yöntemleri kullanılarak imgelerin sınıflandırılması

    Classification of images by using deep learning methods based on perceptual hash functions

    FATİH ÖZYURT

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. ENGİN AVCI