Advancing sign language recognition through novel comprehensive dataset creation and robust methodologies
Yeni ve kapsamlı veri seti oluşturma ve gürbüz metodolojiler geliştirerek işaret dili tanımada ilerleme
- Tez No: 929433
- Danışmanlar: DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM, DR. ÖĞR. ÜYESİ TARKAN AYDIN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 219
Özet
İşaret dili (İD), işitme engelli ve işitme güçlüğü yaşayan topluluklar için önemli bir görsel dildir. Ancak, İD'nin dünya genelindeki çeşitliliği, halkın yorumlama konusunda büyük zorluklar yaşamasına yol açmakta ve etkili otomatik İD Tanıma (İDT) ve Çeviri (İDÇ) sistemlerine duyulan ihtiyacı ortaya koymaktadır. Son yıllardaki gelişmelere rağmen, mevcut yaklaşımlar, büyük ölçekli veri setlerindeki yetersizlikler ve modellerin çeşitli koşullarda dayanıklı olma güçlükleri nedeniyle gerçek dünya senaryolarında gerekli doğruluk, genelleştirilebilirlik ve uygulanabilirlikten yoksundur. Bu tez, kapsamlı ve büyük ölçekli bir Türk İşaret Dili (TİD) veri seti ve çeşitli yeni İDT modeleri sunarak bu sınırlamaları ele almakta ve son derece doğru ve dayanıklı İDT sistemlerinin geliştirilmesine olanak tanımaktadır. TİD veri seti; parmak alfabe ve sayisi, izole işaretler, devamli cümleler ve duygu temelli alt veri seti gibi farklı işaret düzeylerini içermekte olup RGB, Derinlik ve Kızılötesi modlarda çoklu perspektif ve cihazlardan elde edilmiştir. Ayrıca, Yunanca ve Türkçe İD desteği ile çok dilli İD uygulamalarına katkı sağlamaktadır. İDT için öne çıkan katkılar arasında, küçük boyutlü görüntüler ve ince sınıf farklarıyla başa çıkabilen yarı-sert üçlü kayıp fonksiyonlu bir derin-öğrenme modeli, zor anlaşılır jestler için bilinear CNN modeli, karmaşık arka planlar için el segmentasyonu ile bir CNN modeli, çok modlu MLMSign sistemi ve TİD parmak alfabesine odaklanan özel bir model bulunmaktadır. Kapsamlı değerlendirmeler, modellerimizin doğruluk, genelleştirme ve dayanıklılık açısından mevcut en iyi yaklaşımları aştığını ve hesaplama açısından verimli kaldığını göstermektedir. Geliştirdiğimiz yeni veri seti ve metodolojiler kamuya sunulmasıyla bu çalışma işaret dili araştırmalarına önemli bir katkı sağlamakta ve işitme engelli topluluk için iletişim engellerini aşmaya yardımcı olmaktadır.
Özet (Çeviri)
Sign language (SL) is an essential visual language for the deaf and hearing-impaired communities. However, the diversity of SL worldwide presents significant interpretation challenges for the public, underscoring the need for effective automated SL Recognition (SLR) and Translation (SLT) systems. Despite recent advancements, current approaches lack the accuracy, generalizability, and applicability required for real-world scenarios, largely due to limitations in large-scale datasets and challenges in achieving efficient models robust across diverse conditions. This thesis addresses these limitations by introducing a comprehensive large-scale Turkish Sign Language (TSL) dataset and several novel SLR architectures, enabling the development of highly accurate and robust SLR systems. The TSL dataset spans multiple sign levels, including fingerspelling, isolated signs, continuous sentences, and an emotion-based sub-dataset, captured in RGB, Depth, and Infrared modalities from multiple perspectives and devices. Additionally, it supports bilingual capabilities with Greek and Turkish SLs, fostering multilingual SL applications. Key contributions for SLR include a deep-learning model with a semi-hard triplet-loss to handle low-resolution images and slight inter-class variations, a bilinear CNN for hard-to-distinguish gestures, a CNN model with hand segmentation for cluttered backgrounds, a multi-modal multi-lingual system (MLMSign) integrating handcrafted and deep features for high accuracy, efficiency, and robustness against illumination, and a specialized model focusing on TSL fingerspelling. Extensive evaluations show our models surpass state-of-the-art approaches in accuracy, generalization, and robustness across diverse conditions, while remaining computationally efficient. By publicly releasing our novel dataset and methodologies, this work contributes significantly to SL research, bridging the communication gap for the deaf community.
Benzer Tezler
- Blockchain ile güvenli elektronik sağlık sistemi
Blockchain and secure electronic healthcare system
MEHMET MURAT
Yüksek Lisans
Türkçe
2018
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. ENVER ÖZDEMİR
- Derin öğrenme yöntemleri ile trafik işareti tanıma
Traffic sign recognition with deep learning methods
OKAN YILDIRAN
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAZIM YILDIZ
- Road lane and traffic sign detection and tracking for autonomous urban driving
Yol şeritleri/trafik tabelası tespit ve takibi
M. CANER KURTUL
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. H. LEVENT AKIN
- VLF sinyalleri kullanılarak depremlerin önceden tahmin edilmesine yönelik algoritma geliştirilmesi
Advancing algorithms by using VLF signals in order to predict earthquakes
MUSTAFA ULAŞ
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN HÜSEYİN BALIK
YRD. DOÇ. DR. FİKRET ATA