Geri Dön

Sınırlı denetim ve anlamsal temsiller ile işaret dili öğrenimi

Learning sign languages with limited supervision and semantic representations

  1. Tez No: 759000
  2. Yazar: YUNUS CAN BİLGE
  3. Danışmanlar: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 130

Özet

İşaret dilleri, konuşma dillerine benzer şekilde zaman içinde gelişmekte ve değişmektedir. Zamanla değişen ve gelişen bir dil için gözetimli öğrenme yöntemleri ile her bir işaret için etiketli veri bulmak ve bu veri ile bir model eğitmek oldukça güçtür ve pratik görünmemektedir. Özellikle az veya hiç etiketli verisi bulunmayan işaret dili sınıflarını tanıyan, ölçeklenebilir modellere ihtiyaç vardır.Bu tezde, üç yeni problemi ele almaktayız; sıfır örnek ile işaret dili tanıma (SÖİDT), genelleştirilmiş sıfır örnek ile işaret dili tanıma (GSÖİDT) ve birkaç örnek ile işaret dili tanıma. SÖİDT'deki fikir, görünmeyen işaret sınıflarının örneklerini tanımak için görülen işaret sınıfları üzerinden öğrenilen modelleri kullanmaktır. GSÖİDT'de iseöğrenilen model'in performansı sadece görünmeyen işaret sınıflarında değil, aynı zamanda görülen işaret sınıflarında da değerlendirilmektedir. Bu bağlamda, kolay olarak erişilebilen metin ve nitelik tabanlı işaret açıklamaları bilgi aktarımı için anlamsal sınıf temsili olarak kullanılmaktadır. Metin ve nitelik verileri toplanmıştır, işlenmiştir ve görünmeyen işaret dili sınıflarını tanımak için yardımcı bilgi olarak kullanılmaktadır. Bu tezde, bu iki yenilikçi problem senaryosunu çözmek için yardımcı metin ve nitelik tabanlı açıklamaları da içeren üç kıyaslama veri seti sağlanmıştır. SÖİDT ve GSÖİDT problemleri için, vücut ve el bölgelerinin uzamsal-zamansal modellerini oluşturan iki metodoloji önerilmekte ve ilgili öznitelik oluşturma süreci iki adımdan oluşmaktadır: (i) bir işaret videosunun kısa video parçacıklarını kullanarak kısa vadeli uzamsal-zamansal dinamikleri yakalamak, bunun için önceden eğitilmiş bir 3 boyutlu evrişimli sinir ağı kullanılmıştır, (ii) uzun vadeli dinamikleri ise kısa vadeli çıkarılan bilgiler üzerinden tekrarlayan sinir ağları (LSTM) kullanılarak modellenmektedir. Metin ve öznitelik tabanlı sınıf tanımlarının, beden ve elin uzamsal-zamansal modelleri ile birlikte, sıfır örnekli bir öğrenme çerçevesi içinde daha önce görülmemiş işaret sınıflarının tanınması için etkili bir yöntem olduğunu göstermekteyiz. Ek olarak, sınıf temsili olarak kullanılan ikili niteliklerin doğru ve yanlış sıfır örnek tahminleri üzerindeki etkisini incelemek üzere iki farklı teknik önermekteyiz. Her niteliğin sınıflandırma üzerindeki etkisinin tahmini için bir çevirme farkı operatörü tanımlanmaktadır, kısacası nitelikteki değişimin sınıf önermedeki etkisini araştırmaktayız. Bu tezde, sunulan yöntemlerin ve veri kümelerinin, işaret dili tanımada sıfır örnek ile öğrenmeye yönelik devam eden araştırmalar için bir temel oluşturacağını ummaktayız. Ayrıca, işaret dili tanımanın bir problemi olan etiketli veri eksikliğini çözmek üzere başka bir perspektiften daha yaklaşmaktayız; amacımız her biri yalnızca birkaç etiketli sınıf örneğine sahip yeni işaret sınıflarını tanımak olduğu birkaç adımlı meta öğrenme tekniğinidir. Günlük hayatta daha yaygın olarak kullanılan işaret sınıflarının diğerlerine göre daha fazla etiketli veri içerdiğini gözlemlemekteyiz. Yaklaşımımız, yeni işaret sınıflarını tanımak için denetimli bir öğrenme tarzı ile az veri üzerinden birden çok ilişkili işaret dili sınıfını tanımak için bir modeli eğitmek üzerinedir ve amaç modeli yeni işaret dili sınıflarını tanıması için olabildiğince genelleştirmeye odaklıdır. Deneysel sonuçlarımız ve ayrıntılı analizlerimiz, önerilen yöntemlerin hem görülen hem de yeni işaret sınıfı örneklerini tanımada etkili olduğunu göstermektedir. Sunulan yöntemlerin ve veri kümelerinin, ölçeklenebilir işaret dili tanıma konusunda devam eden araştırmalar için bir temel oluşturmasını beklemekteyiz.

Özet (Çeviri)

Sign languages evolve and change over time, much like spoken languages. It is impractical to annotate the signs of a sign language for supervised learning. Scalable recognition modalities are needed for SLR especially for those signs that have very few or even none annotated examples. In this thesis, we tackle three novel problems that involve limited supervision for sign language recognition. These are zero-shot sign language recognition (ZSSLR), generalized zero-shot sign language recognition (GZSSLR), and few-shot sign language recognition. The idea in ZSSLR is to use models learned over the seen sign classes to recognize instances of unseen sign classes. In GZSSLR, the learned model is evaluated not only on unseen sign classes but also on seen sign classes. In this context, freely available textual and attribute sign descriptions from sign language descriptions are used as semantic class representations for knowledge transfer. We have processed textual and attribute data and we have collected those auxiliary information for sign language signs. In this thesis, we have provided three benchmark datasets with their supporting text and attribute descriptions to address the challenge for these two innovative problem scenarios in depth. In order to address (G)ZSSLR task, we propose two methods that construct spatio-temporal models of body and hand regions. The feature construction process consists of two steps: (i) a pre-trained three-dimensional convolutional neural network is used for extraction to capture short-term dynamics with short video snippets of a sign video, (ii) longer-term dynamics are captured using these features with recurrent neural networks. We show that text and attribute-based class definitions, together with the spatio-temporal models of body and hand, provide effective information for recognizing of previously unseen sign classes inside a zero-shot learning framework. We additionally propose two techniques to investigate the impact of binary attributes on correct and incorrect zero-shot predictions. A flip difference operator is defined to estimate the impact of each attribute on classification. We hope that the methods and datasets presented in this thesis will serve as a foundation for ongoing research on zero-shot learning in sign language recognition. In addition, we approach the problem of data scarcity of sign language recognition from different perspective: few-shot meta learning, where the goal is to recognize novel sign classes, each of which has only a few labeled class samples. This is the case when some sign classes have more annotated samples than others due to their widespread use in daily life. Our approach is to generalize a model from sub-tasks by training a model with the task specific data in a supervised learning manner to recognize novel sign classes, which in turn contain few related ground-truth annotated examples. Our experimental results over all these three tasks and detailed analysis show that the proposed methods are effective in recognizing both seen and also unseen sign class examples. We anticipate that the presented methods and datasets will serve as a foundation for further research in scalable sign language recognition.

Benzer Tezler

  1. The effect of visual narrative language of color codes in Youssef Chahine's cinema

    Youssef Chahine sinemasında renk kodlarının görsel anlatı diline etkisi

    MARİAM MAHROUS

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Radyo-TelevizyonEge Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    PROF. DR. ALEV FATOŞ PARSA

    Assist. Prof. Dr. ELÇİN AS

  2. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Beyond digital labour: A theoretical inquiry into value and abstraction in communication

    Dijital emeğin ötesinde: İletişimde değer ve soyutlama kavramları üzerine teorik bir sorgulama

    MÜSLÜM GÖKHAN ASLAN

    Doktora

    İngilizce

    İngilizce

    2021

    Sosyolojiİstanbul Bilgi Üniversitesi

    İletişim Ana Bilim Dalı

    PROF. DR. YAŞAR AYDIN UĞUR

  4. Türk Vergi Hukukunda izaha davet müessesesi ve etkinliği'nin vergi müfettişleri bakış açısıyla araştırılması

    Invitation to explanation mechanism under the Turkish Tax Law and investigation of effectiveness from tax inspector's perspective

    ERHAN BAYAR

    Doktora

    Türkçe

    Türkçe

    2024

    İşletmeİstanbul Okan Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN MERT

  5. Risk-based internal audit and developing a risk matrix for audit planning of a bank

    Risk odaklı iç denetim ve bir bankanın denetim planlaması için risk matrisinin oluşturulması

    BUŞRA KEVSER SARUHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bankacılıkİstanbul Bilgi Üniversitesi

    Finansal Ekonomi Ana Bilim Dalı

    YRD. DOÇ. DR. DERYA ÜÇOĞLU