Geri Dön

Computer vision based multi-lingual fingerspelling recognition

Bilgisayarla görme tabanlı çok dilli parmak alfabesi tanıma

  1. Tez No: 286369
  2. Yazar: AHMET ALP KINDIROĞLU
  3. Danışmanlar: PROF. LALE AKARUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Bu tezde bilgisayarla görme tabanlı otomatik işaret dili tanıma ve ilgili alt konular üzerine yoğunlaşmış çalışmalar yaptık. Çalışmada üzerinde yoğunlaşılan el alfabeleri, işaret dillerinin, işaret dilinde karşılığı olmayan kelimelerin sadece parmak hareketlerini kullanarak temsilini sağlayan bir alt kümesidir. El alfabeleri, kavramları ellerin şekillerini, yönelimlerini, konumlandırmasını ve hareketlerini kullanarak temsil eder. Bu çalışmada, çok kipli ve çok dilli sistemlerde kullanılabilecek, Türk, Çek ve Rus el alfabelerinde yarı gerçek zamanlı el alfabesi tanıma yapan bir sistem geliştirdik. Otomatik işaret dili tanıma problemi üzerine yaptığımız çalışmalarda, el izleme ve bölütleme, el özniteliklerinin temsili, sınıflandırılması ve zamansal bölütlenmesi gibi alt konularda yoğunlaşarak geliştirdiğimiz ve kullandığımız metotların karşılaştırmalı analizlerini yaptık. Geliştirdiğimiz el ve yüz izleme yöntemiyle kamera karşısında işaret dili icra eden bir kullanıcının ellerini dayanıklı ve verimli bir şekilde takip edebiliyoruz. Klasik Camshift algoritmasına yaptığımız çoklu obje izleme, otomatik renk modeli oluşturma, otomatik el bulma ve kesişip ayrışan objeleri işaretleme yöntemleriyle kesintisiz videolarda dayanıklı el işareti tanıması yapılmasına olanak sağladık. El hareketi temsil metotlarımızda Eliptik Fourier betimleyicileri, Hu momentleri, ışınsal uzaklık fonksiyonu, yerel ikili örüntüler gibi iki boyutlu imgelerden elde edilen görüntü kipli özniteliklere ağırlık verdik. Bu özniteliklerin tanıma performanslarını tek tek ve birlikte inceleyerek sistemin detaylı bir analizini gerçekleştirdik. İmge dizileriyle yaptığımız testlerde, izole el hareketleri için en iyi tanıma başarımını yüzde 92 ile yerel ikili örüntü betimleyicileri verdi. Kesintisiz el işareti dizilerinde, işaretlerin başlama ve bitiş zamanlarını bulmak için hareket ve harekete bağlı bulanıklığı bir öznitelik olarak kullandık. Son olarak zamansal ve görsel özniteliklerin, el işareti dizilerini tanıma için kaynaşımını gerçekleştirerek dizilerde ağırlıklı oylama, ayrık Saklı Markov Modelleri ve kesintisiz Saklı Markov Modelleriyle el hareketlerini modelledik. İşaret dili tanıma başarımını ölçmek için yaptığımız testlerde, kendi topladığımız Türk, Çek ve Rus el alfabelerinden oluşan çok dilli veritabanını kullandık. Bu tez kapsamında, çalışmalarda geliştirilen yöntemleri kullanan bir parmak alfabesinden sese tercüme uygulaması geliştirdik.

Özet (Çeviri)

In this thesis, we focus on the problem of computer vision based automatic sign-language recognition and its related subtasks. The study focuses on the recognition of fingerspelling gestures, which are a subset of sign languages that provide manual representation for spoken alphabet letters. Fingerspelling gestures make use of hand shapes, orientation, location and movements. We perform the task of fingerspelling recognition of Turkish, Czech and Russian manual alphabets with the purpose of integrating these sign alphabets to multi-modal and multilingual deployable applications. In the thesis, we divide the automatic fingerspelling recognition task into sub-challenges and design methodologies to improve overall sign recognition performance. We describe an approach to tracking of hands and a face in an image sequence containing the frontal pose of a signing person. A classical Camshift algorithm is extended in this study to contain automatic skin color model initialization, hand re-detection and collision handling. The algorithm performs robust, close to real-time hand tracking. Secondly, we focus on hand gesture representation. We evaluate the usage of appearance based features for describing the manual component of Sign Languages; in particular Elliptic Fourier Descriptors, Hu Moments, Radial Distance Function and Local Binary Patterns. We test the recognition performance of individual features and their combinations. Local Binary Patterns show the best recognition performance on isolated gestures with a recognition rate of up to 92 per cent. We explore the usage of features such as hand motion and motion blur in the problem of temporal segmentation to separate gesture start and end locations in continuous gesture videos. We investigate the fusion of temporal and appearance features using sequence voting, discrete HMMs and continuous HMMs. We test the fingerspelling recognition accuracy of our system on a self collected multilingual fingerspelling dataset consisting of Turkish, Czech and Russian manual alphabets from multiple signers with multiple repetitions. Finally, we have demonstrated the applicability of our system in a prototype application that functions as a multi-lingual fingerspelling to speech translator.

Benzer Tezler

  1. Emlak fotoğraflarının kalite değerlendirilmesi: Derin öğrenme tabanlı bir yaklaşım

    Quality assessment of real estate photographs: A deep learning-based approach

    AKIN YAŞAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DR. YÜKSEL YURTAY

  2. Prosedürel el hareketlerinin bilgisayarlı görmeye dayalı yorumlanması

    Interpretation of procedural hand gestures using computer vision

    RÜSTEM ÖZAKAR

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EYÜP GEDİKLİ

  3. Virtual context-based multi-camera vehicle tracking

    Sanal bağlam tabanlı çoklu kamera araç takibi

    WAEL KABOUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    Prof. Dr. AHMET ÖZMEN

  4. Computer vision-based human action recognition via keypoint tracking

    Anahtar nokta takibi ile bilgisayarla görme temelli insan hareketi tanıma

    YUNUS EMRE KARA

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN

  5. Büyük dil modelleri kullanan derin öğrenme tabanlı dinamik çok modlu veri özetleme yaklaşımları

    Deep learning based multi modal data summarization approaches using large language models

    TURAN GÖKTUĞ ALTUNDOĞAN

    Doktora

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET KARAKÖSE