Öz-dikkat mekanizması rehberliğinde iskelet tabanlı eylem tanıma için uzaysal-zamansal çizge evrişimli ağ mimarilerinin geliştirilmesi
Development of spatio-temporal graph convolutional network architectures for skeleton-based action recognition guided by self-attention mechanism
- Tez No: 955549
- Danışmanlar: DR. ÖĞR. ÜYESİ GÜLŞAH TÜMÜKLÜ ÖZYER, DR. ÖĞR. ÜYESİ ÖZGE ÖZTİMUR KARADAĞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Atatürk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 112
Özet
Amaç: İskelet verileri, çevresel değişikliklere karşı dayanıklılığı, hesaplama verimliliği, kompakt yapısı ve mahremiyet endişelerini minimize etmeleri gibi avantajları nedeniyle son yıllarda eylem tanımada önemli bir modalite haline gelmiştir. Derin öğrenmenin gelişmesiyle birlikte, iskelet verilerini kullanarak eylem tanıma yapan birçok yöntem geliştirilmiştir. Özellikle, iskelet verilerinin topolojik yapısının çizge olarak modellenmeye uygun olması sebebiyle uzaysal-zamansal çizge evrişimsel ağlara (ST-GCN) olan ilgi artmıştır. Fakat ST-GCN modelleri sabit çizge topolojisi sınırlamaları, uzak mesafeli eklemler arasındaki bağımlılıkların yetersiz temsili, uzun menzilli zamansal bağımlılıkların eksikliği ve koordineli hareketlerin yetersiz temsili gibi yapısal sınırlamalar devam etmektedir. Bu doktora çalışmasında, ST-GCN modellerinin sınırlamaları gidermek ve insan vücudunun karmaşık hareketlerini daha etkili modellemek amacıyla AGMS-GCN ve FCSA-GCN olmak üzere iki farklı mimari yapı önerilmiştir. Yöntem: AGMS-GCN mimarisinde, uzaysal-zamansal çizge evrişimleri ile çıkarılan öznitelik haritalarına dikkat mekanizması uygulanarak eyleme özgü eklem ilişkilerini temsil eden dikkat bitişiklik matrisleri oluşturulmaktadır. Bu matrisler, kısa ve uzun menzilli uzaysal-zamansal bağımlılıkları etkili bir şekilde yakalayarak eylemler arasındaki ince farkların modellenmesini sağlar. Ayrıca AGMS-GCN modeli, üç farklı ölçekten elde edilen özellik haritalarını kullanarak çok ölçekli uzaysal-zamansal bağımlılıkları modeller. FCSA-GCN modeli ise çok ölçekli özellik çıkarımı için inceden-kabaya ölçekleme stratejisi ve zamansal öz-dikkat mekanizmasını kullanarak yerel ve küresel uzaysal-zamansal bağımlılıkları etkili bir şekilde modeller. Eğitim sırasında çok ölçekli özellik çıkarma aşamalarının dengeli optimizasyonu dinamik ağırlık ortalaması yaklaşımıyla sağlanmıştır. Bulgular: Kapsamlı deneyler, AGMS-GCN ve FCSA-GCN modellerinin NTU-60 ve N-UCLA veri kümelerinde en son teknoloji performansı sergilediğini ve NTU-120 veri kümesinde rekabetçi sonuçlar elde ettiğini göstermiştir. AGMS-GCN modeli, 15,8M parametre ile NTU-60 veri kümesinde çapraz denek değerlendirmesinde %93,9 ve çapraz görünüm değerlendirmesinde ise %97,8 doğruluk oranına ulaşmıştır. FCSA-GCN modeli ise 5,9M parametre ile çapraz denek değerlendirmesinde %93,6 ve çapraz görünüm değerlendirmesinde ise %97,5 doğruluk oranı yakalayarak daha hızlı ve verimli bir çözüm sunmaktadır. Sonuç: AGMS-GCN ve FCSA-GCN modelleri, sabit çizge topolojisi sınırlamalarını ortadan kaldırarak uzun menzilli uzaysal-zamansal bağımlılıkları etkili bir şekilde modellemiştir. FCSA-GCN modeli, düşük hesaplama maliyeti ve yüksek doğruluğu sayesinde kaynak kısıtlı ortamlarda da etkili bir şekilde kullanılabileceğini göstermektedir.
Özet (Çeviri)
Purpose: In recent years, skeleton data has become an important modality for action recognition due to its robustness against environmental changes, computational efficiency, compact structure, and capability to provide anonymity. With the development of deep learning, numerous methods have been proposed for action recognition using skeleton data. In particular, the topological structure of skeleton data makes it suitable for modeling as a graph, leading to increased interest in spatial-temporal graph convolutional networks (ST-GCN). However, structural limitations of ST-GCN models, such as fixed graph topology constraints, inadequate representation of dependencies between distant joints, lack of long-range temporal dependencies, and insufficient representation of coordinated movements, remain significant challenges. In this doctoral study, two different architectures, AGMS-GCN and FCSA-GCN, are proposed to address the limitations of ST-GCN models and to more effectively model the complex movements of the human body. Method: In the AGMS-GCN architecture, attention adjacency matrices representing action-specific joint relationships are generated by applying an attention mechanism to the feature maps extracted through spatial-temporal graph convolutions. These matrices effectively capture short- and long-range spatial-temporal dependencies, enabling the modeling of subtle differences between actions. The AGMS-GCN model represents multi-scale spatial-temporal dependencies by leveraging feature maps obtained from three different scales. The FCSA-GCN model, on the other hand, employs a fine-to-coarse scaling strategy and a temporal self-attention mechanism for multi-scale feature extraction, allowing for more effective modeling of local and global spatial-temporal dependencies. During training, the balanced optimization of multi-scale feature extraction stages is ensured through a dynamic weight averaging approach. Findings: Comprehensive experiments have shown that AGMS-GCN and FCSA-GCN models demonstrate state-of-the-art performance on the NTU-60 and N-UCLA datasets and achieve competitive results on the NTU-120 dataset. The AGMS-GCN model, with 15.9M parameters, achieves an accuracy of 93.9% in cross-subject evaluation and 97.8% in cross-view evaluation on the NTU-60 dataset. On the other hand, the FCSA-GCN model offers a faster and more efficient solution with 5.9M parameters, achieving 93.6% accuracy in cross-subject evaluation and 97.5% in cross-view evaluation. Results: The AGMS-GCN and FCSA-GCN models have effectively addressed fixed graph topology limitations, modeling long-range spatial-temporal dependencies with high accuracy. The FCSA-GCN model demonstrates that it can be effectively used in resource-constrained environments due to its low computational cost and high accuracy.
Benzer Tezler
- Spherical vision transformers for audio-visual saliency prediction in 360◦ videos
360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri
MERT ÇÖKELEK
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM AYKUT ERDEM
- Üretken çekişmeli ağ tabanlı tek görüntü üretim modellerinin tasarımı
Design of single image generation models based on generative adversarial networks
EYYÜP YILDIZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELÇUK SEVGEN
DOÇ. DR. MEHMET ERKAN YÜKSEL
- Derin öğrenme yöntemleriyle imza sahteciliğinin tespiti
Detection of signature forgery with deep learning methods
MEHMET TÜRKAY YOLDAR
Yüksek Lisans
Türkçe
2024
Adli TıpAnkara ÜniversitesiAdli Bilimler Ana Bilim Dalı
PROF. DR. NERGİS CANTÜRK
PROF. DR. RECEP ERYİĞİT
- A cross selling recommender system based on recurrent neural networks for online shopping
Çevrimiçi alışveriş içi özyinelemeli yapay sinir ağları tabanlı bir çapraz satış öneri sistemi
İBRAHİM ERDEM KALKAN
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiÇukurova ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. CENK ŞAHİN
- Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma
Temporal action recognition in untrimmed videos using deep neural networks
YAĞMUR ŞAHİN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA SERT