Geri Dön

Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma

Temporal action recognition in untrimmed videos using deep neural networks

  1. Tez No: 843660
  2. Yazar: YAĞMUR ŞAHİN
  3. Danışmanlar: DOÇ. DR. MUSTAFA SERT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 98

Özet

Günümüzde videoların büyük bir veri kaynağı oluşturması, anlamsal bilgi çıkarımı ve eylem tanıma gibi konularda derin öğrenmenin önemini artırmıştır. Videoların karmaşık ve dinamik yapısı nedeniyle gelişmiş modelleme teknikleri ve algoritmaların kullanılması gerekliliği ortaya çıkmıştır. Bu çalışmada, sayısal teknolojilerle artan video içeriklerinden anlamsal bilgi çıkarımı amacıyla, videolarda eylem tanıma problemi araştırılmıştır. Mevcut çalışmaların birçoğu, kısa videoların sınıflandırılmasına odaklanmaktadır. Tez kapsamında, kısa videoların yanısıra, uzun videoların sınıflandırması için üç boyutlu evrişimsel sinir ağları ve dikkat mekanizmasına dayalı özgün bir model önerilmektedir. Bu entegrasyon hem kısa hem de uzun videolardaki öğrenme sürecini iyileştirmekte ve aktivitelerin doğru tanımlanabilmesine olanak sunmaktadır. Önerilen model, uzun videoların sınıflandırması için öncelikle bölge öneri ağı adı verilen bir sinir ağı ile uzun videoların olası olay sınırlarını tespit etmekte, daha sonra önerilen video sınırları için sınıflandırma yapmaktadır. HMDB, UCF ve ActivityNet gibi veri kümeleri üzerinde gerçekleştirilen deneysel çalışmalarda, dikkat mekanizmalarının model performansını önemli ölçüde artırdığı görülmüştür. Önerilen model, 3D evrişimsel sinir ağları ve dikkat mekanizmalarının entegrasyonuyla, videolardan öznitelik çıkarımı ve aktivite tespiti yeteneklerini geliştirmiştir. Kısa video klipleri için HMDB ve UCF veri kümeleri, uzun videolar içinse ActivityNet veri kümesi kullanılarak modelin farklı aktivite tipleri ve video yapılarındaki tanıma yeteneği ölçülmüştür. Özellikle UCF ve HMDB veri kümelerinde, Öz Dikkat mekanizması kullanılan model yüksek doğruluk oranlarına ulaşırken, ActivityNet'te Çok Başlıklı Dikkat mekanizması uzun videolardaki karmaşık etkileşimleri daha etkili bir şekilde tanıma yeteneği sergilemiştir. Bu bulgular, dikkat mekanizmalarının videolardan anlamsal bilgi çıkarımında önemli bir rol oynadığını ve derin öğrenme yöntemlerinin bu alandaki potansiyelini ortaya koymaktadır. Elde edilen sonuçlar, önerilen derin öğrenme modelinin farklı video yapılarına uyum sağlama yeteneğini ve etkili bilgi çıkarımı gerçekleştirme kapasitesini açıkça ortaya koymaktadır.

Özet (Çeviri)

In today's world, the vast amount of video data has increased the importance of deep learning in areas such as semantic information extraction and action recognition. Due to the complex and dynamic nature of videos, there is a need for advanced modeling techniques and algorithms. This study investigates the problem of action recognition in videos with the aim of extracting semantic information from the increasing video contents with digital technologies. Many of the existing studies focus on the classification of short videos. Within the scope of the thesis, an original model based on three-dimensional convolutional neural networks and attention mechanism is proposed for the classification of not only short videos but also long videos. This integration enhances the learning process in both short and long videos, enabling accurate action detection. The proposed model focuses on classifying long videos by first identifying potential event boundaries within these videos using a neural network known as region proposal network, and subsequently performing classification on the proposed video segments. Experimental studies carried out on datasets like HMDB, UCF, and ActivityNet have shown that attention mechanisms significantly improve model performance. The proposed model, integrating 3D convolutional neural networks and attention mechanisms, has improved feature extraction and activity detection capabilities from videos. The model's ability to recognize various activity types and video structures was evaluated using the HMDB and UCF datasets for short video clips and the ActivityNet dataset for longer videos. Specifically, in the UCF and HMDB datasets, the model using the Self Attention mechanism achieved high accuracy rates, while in ActivityNet, the Multi-Head Attention mechanism displayed better ability to recognize complex interactions in longer videos. These findings highlight the crucial role of attention mechanisms in extracting semantic information from videos and reveal the potential of deep learning methods in this area. The obtained results clearly indicate the proposed deep learning model's adaptability to different video structures and its capacity for effective information extraction.

Benzer Tezler

  1. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  2. Human activity recognition using deep learning

    Derin öğrenme ile insan aktivitesi tanıma

    MURAT YALÇIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

  3. Multimodal video-based personality recognition using long short-term memory and convolutional neural networks

    Çok kipli uzun kısa-süreli bellek ve evrişimli sinir ağları ile videoda kişilik tanıma

    SÜLEYMAN ASLAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. UĞUR GÜDÜKBAY

  4. A deep-learning based model for visual depth and pose estimation of mobile robots

    Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

    ROZHIN FANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mekatronik MühendisliğiBahçeşehir Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET BERKE GÜR

  5. Yaşlı bakımında derin öğrenme ile video üzerinden sağlık durumunun takibi

    Video surveillance of elderly person aimed to healthcare via deep learning

    FAHRİ CİHAN ATTİLA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mühendislik BilimleriFırat Üniversitesi

    Ekobilişim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET İLYAS BAYINDIR