Geri Dön

Öz-dikkat mekanizması rehberliğinde iskelet tabanlı eylem tanıma için uzaysal-zamansal çizge evrişimli ağ mimarilerinin geliştirilmesi

Development of spatio-temporal graph convolutional network architectures for skeleton-based action recognition guided by self-attention mechanism

  1. Tez No: 955549
  2. Yazar: UĞUR KILIÇ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÜLŞAH TÜMÜKLÜ ÖZYER, DR. ÖĞR. ÜYESİ ÖZGE ÖZTİMUR KARADAĞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Atatürk Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 112

Özet

Amaç: İskelet verileri, çevresel değişikliklere karşı dayanıklılığı, hesaplama verimliliği, kompakt yapısı ve mahremiyet endişelerini minimize etmeleri gibi avantajları nedeniyle son yıllarda eylem tanımada önemli bir modalite haline gelmiştir. Derin öğrenmenin gelişmesiyle birlikte, iskelet verilerini kullanarak eylem tanıma yapan birçok yöntem geliştirilmiştir. Özellikle, iskelet verilerinin topolojik yapısının çizge olarak modellenmeye uygun olması sebebiyle uzaysal-zamansal çizge evrişimsel ağlara (ST-GCN) olan ilgi artmıştır. Fakat ST-GCN modelleri sabit çizge topolojisi sınırlamaları, uzak mesafeli eklemler arasındaki bağımlılıkların yetersiz temsili, uzun menzilli zamansal bağımlılıkların eksikliği ve koordineli hareketlerin yetersiz temsili gibi yapısal sınırlamalar devam etmektedir. Bu doktora çalışmasında, ST-GCN modellerinin sınırlamaları gidermek ve insan vücudunun karmaşık hareketlerini daha etkili modellemek amacıyla AGMS-GCN ve FCSA-GCN olmak üzere iki farklı mimari yapı önerilmiştir. Yöntem: AGMS-GCN mimarisinde, uzaysal-zamansal çizge evrişimleri ile çıkarılan öznitelik haritalarına dikkat mekanizması uygulanarak eyleme özgü eklem ilişkilerini temsil eden dikkat bitişiklik matrisleri oluşturulmaktadır. Bu matrisler, kısa ve uzun menzilli uzaysal-zamansal bağımlılıkları etkili bir şekilde yakalayarak eylemler arasındaki ince farkların modellenmesini sağlar. Ayrıca AGMS-GCN modeli, üç farklı ölçekten elde edilen özellik haritalarını kullanarak çok ölçekli uzaysal-zamansal bağımlılıkları modeller. FCSA-GCN modeli ise çok ölçekli özellik çıkarımı için inceden-kabaya ölçekleme stratejisi ve zamansal öz-dikkat mekanizmasını kullanarak yerel ve küresel uzaysal-zamansal bağımlılıkları etkili bir şekilde modeller. Eğitim sırasında çok ölçekli özellik çıkarma aşamalarının dengeli optimizasyonu dinamik ağırlık ortalaması yaklaşımıyla sağlanmıştır. Bulgular: Kapsamlı deneyler, AGMS-GCN ve FCSA-GCN modellerinin NTU-60 ve N-UCLA veri kümelerinde en son teknoloji performansı sergilediğini ve NTU-120 veri kümesinde rekabetçi sonuçlar elde ettiğini göstermiştir. AGMS-GCN modeli, 15,8M parametre ile NTU-60 veri kümesinde çapraz denek değerlendirmesinde %93,9 ve çapraz görünüm değerlendirmesinde ise %97,8 doğruluk oranına ulaşmıştır. FCSA-GCN modeli ise 5,9M parametre ile çapraz denek değerlendirmesinde %93,6 ve çapraz görünüm değerlendirmesinde ise %97,5 doğruluk oranı yakalayarak daha hızlı ve verimli bir çözüm sunmaktadır. Sonuç: AGMS-GCN ve FCSA-GCN modelleri, sabit çizge topolojisi sınırlamalarını ortadan kaldırarak uzun menzilli uzaysal-zamansal bağımlılıkları etkili bir şekilde modellemiştir. FCSA-GCN modeli, düşük hesaplama maliyeti ve yüksek doğruluğu sayesinde kaynak kısıtlı ortamlarda da etkili bir şekilde kullanılabileceğini göstermektedir.

Özet (Çeviri)

Purpose: In recent years, skeleton data has become an important modality for action recognition due to its robustness against environmental changes, computational efficiency, compact structure, and capability to provide anonymity. With the development of deep learning, numerous methods have been proposed for action recognition using skeleton data. In particular, the topological structure of skeleton data makes it suitable for modeling as a graph, leading to increased interest in spatial-temporal graph convolutional networks (ST-GCN). However, structural limitations of ST-GCN models, such as fixed graph topology constraints, inadequate representation of dependencies between distant joints, lack of long-range temporal dependencies, and insufficient representation of coordinated movements, remain significant challenges. In this doctoral study, two different architectures, AGMS-GCN and FCSA-GCN, are proposed to address the limitations of ST-GCN models and to more effectively model the complex movements of the human body. Method: In the AGMS-GCN architecture, attention adjacency matrices representing action-specific joint relationships are generated by applying an attention mechanism to the feature maps extracted through spatial-temporal graph convolutions. These matrices effectively capture short- and long-range spatial-temporal dependencies, enabling the modeling of subtle differences between actions. The AGMS-GCN model represents multi-scale spatial-temporal dependencies by leveraging feature maps obtained from three different scales. The FCSA-GCN model, on the other hand, employs a fine-to-coarse scaling strategy and a temporal self-attention mechanism for multi-scale feature extraction, allowing for more effective modeling of local and global spatial-temporal dependencies. During training, the balanced optimization of multi-scale feature extraction stages is ensured through a dynamic weight averaging approach. Findings: Comprehensive experiments have shown that AGMS-GCN and FCSA-GCN models demonstrate state-of-the-art performance on the NTU-60 and N-UCLA datasets and achieve competitive results on the NTU-120 dataset. The AGMS-GCN model, with 15.9M parameters, achieves an accuracy of 93.9% in cross-subject evaluation and 97.8% in cross-view evaluation on the NTU-60 dataset. On the other hand, the FCSA-GCN model offers a faster and more efficient solution with 5.9M parameters, achieving 93.6% accuracy in cross-subject evaluation and 97.5% in cross-view evaluation. Results: The AGMS-GCN and FCSA-GCN models have effectively addressed fixed graph topology limitations, modeling long-range spatial-temporal dependencies with high accuracy. The FCSA-GCN model demonstrates that it can be effectively used in resource-constrained environments due to its low computational cost and high accuracy.

Benzer Tezler

  1. Spherical vision transformers for audio-visual saliency prediction in 360◦ videos

    360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri

    MERT ÇÖKELEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  2. Üretken çekişmeli ağ tabanlı tek görüntü üretim modellerinin tasarımı

    Design of single image generation models based on generative adversarial networks

    EYYÜP YILDIZ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELÇUK SEVGEN

    DOÇ. DR. MEHMET ERKAN YÜKSEL

  3. Derin öğrenme yöntemleriyle imza sahteciliğinin tespiti

    Detection of signature forgery with deep learning methods

    MEHMET TÜRKAY YOLDAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Adli TıpAnkara Üniversitesi

    Adli Bilimler Ana Bilim Dalı

    PROF. DR. NERGİS CANTÜRK

    PROF. DR. RECEP ERYİĞİT

  4. A cross selling recommender system based on recurrent neural networks for online shopping

    Çevrimiçi alışveriş içi özyinelemeli yapay sinir ağları tabanlı bir çapraz satış öneri sistemi

    İBRAHİM ERDEM KALKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiÇukurova Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CENK ŞAHİN

  5. Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma

    Temporal action recognition in untrimmed videos using deep neural networks

    YAĞMUR ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA SERT