Derin sinir ağlarını kullanarak uzun ve kısa videolarda zamansal eylem tanıma
Temporal action recognition in untrimmed videos using deep neural networks
- Tez No: 843660
- Danışmanlar: DOÇ. DR. MUSTAFA SERT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Başkent Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 98
Özet
Günümüzde videoların büyük bir veri kaynağı oluşturması, anlamsal bilgi çıkarımı ve eylem tanıma gibi konularda derin öğrenmenin önemini artırmıştır. Videoların karmaşık ve dinamik yapısı nedeniyle gelişmiş modelleme teknikleri ve algoritmaların kullanılması gerekliliği ortaya çıkmıştır. Bu çalışmada, sayısal teknolojilerle artan video içeriklerinden anlamsal bilgi çıkarımı amacıyla, videolarda eylem tanıma problemi araştırılmıştır. Mevcut çalışmaların birçoğu, kısa videoların sınıflandırılmasına odaklanmaktadır. Tez kapsamında, kısa videoların yanısıra, uzun videoların sınıflandırması için üç boyutlu evrişimsel sinir ağları ve dikkat mekanizmasına dayalı özgün bir model önerilmektedir. Bu entegrasyon hem kısa hem de uzun videolardaki öğrenme sürecini iyileştirmekte ve aktivitelerin doğru tanımlanabilmesine olanak sunmaktadır. Önerilen model, uzun videoların sınıflandırması için öncelikle bölge öneri ağı adı verilen bir sinir ağı ile uzun videoların olası olay sınırlarını tespit etmekte, daha sonra önerilen video sınırları için sınıflandırma yapmaktadır. HMDB, UCF ve ActivityNet gibi veri kümeleri üzerinde gerçekleştirilen deneysel çalışmalarda, dikkat mekanizmalarının model performansını önemli ölçüde artırdığı görülmüştür. Önerilen model, 3D evrişimsel sinir ağları ve dikkat mekanizmalarının entegrasyonuyla, videolardan öznitelik çıkarımı ve aktivite tespiti yeteneklerini geliştirmiştir. Kısa video klipleri için HMDB ve UCF veri kümeleri, uzun videolar içinse ActivityNet veri kümesi kullanılarak modelin farklı aktivite tipleri ve video yapılarındaki tanıma yeteneği ölçülmüştür. Özellikle UCF ve HMDB veri kümelerinde, Öz Dikkat mekanizması kullanılan model yüksek doğruluk oranlarına ulaşırken, ActivityNet'te Çok Başlıklı Dikkat mekanizması uzun videolardaki karmaşık etkileşimleri daha etkili bir şekilde tanıma yeteneği sergilemiştir. Bu bulgular, dikkat mekanizmalarının videolardan anlamsal bilgi çıkarımında önemli bir rol oynadığını ve derin öğrenme yöntemlerinin bu alandaki potansiyelini ortaya koymaktadır. Elde edilen sonuçlar, önerilen derin öğrenme modelinin farklı video yapılarına uyum sağlama yeteneğini ve etkili bilgi çıkarımı gerçekleştirme kapasitesini açıkça ortaya koymaktadır.
Özet (Çeviri)
In today's world, the vast amount of video data has increased the importance of deep learning in areas such as semantic information extraction and action recognition. Due to the complex and dynamic nature of videos, there is a need for advanced modeling techniques and algorithms. This study investigates the problem of action recognition in videos with the aim of extracting semantic information from the increasing video contents with digital technologies. Many of the existing studies focus on the classification of short videos. Within the scope of the thesis, an original model based on three-dimensional convolutional neural networks and attention mechanism is proposed for the classification of not only short videos but also long videos. This integration enhances the learning process in both short and long videos, enabling accurate action detection. The proposed model focuses on classifying long videos by first identifying potential event boundaries within these videos using a neural network known as region proposal network, and subsequently performing classification on the proposed video segments. Experimental studies carried out on datasets like HMDB, UCF, and ActivityNet have shown that attention mechanisms significantly improve model performance. The proposed model, integrating 3D convolutional neural networks and attention mechanisms, has improved feature extraction and activity detection capabilities from videos. The model's ability to recognize various activity types and video structures was evaluated using the HMDB and UCF datasets for short video clips and the ActivityNet dataset for longer videos. Specifically, in the UCF and HMDB datasets, the model using the Self Attention mechanism achieved high accuracy rates, while in ActivityNet, the Multi-Head Attention mechanism displayed better ability to recognize complex interactions in longer videos. These findings highlight the crucial role of attention mechanisms in extracting semantic information from videos and reveal the potential of deep learning methods in this area. The obtained results clearly indicate the proposed deep learning model's adaptability to different video structures and its capacity for effective information extraction.
Benzer Tezler
- Derin öğrenme ile cerrahi video anlama
Surgical video understanding with deep learning
ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
- Human activity recognition using deep learning
Derin öğrenme ile insan aktivitesi tanıma
MURAT YALÇIN
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜLYA YALÇIN
- Multimodal video-based personality recognition using long short-term memory and convolutional neural networks
Çok kipli uzun kısa-süreli bellek ve evrişimli sinir ağları ile videoda kişilik tanıma
SÜLEYMAN ASLAN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. UĞUR GÜDÜKBAY
- A deep-learning based model for visual depth and pose estimation of mobile robots
Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model
ROZHIN FANI
Yüksek Lisans
İngilizce
2024
Mekatronik MühendisliğiBahçeşehir ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET BERKE GÜR
- Yaşlı bakımında derin öğrenme ile video üzerinden sağlık durumunun takibi
Video surveillance of elderly person aimed to healthcare via deep learning
FAHRİ CİHAN ATTİLA
Yüksek Lisans
Türkçe
2023
Mühendislik BilimleriFırat ÜniversitesiEkobilişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET İLYAS BAYINDIR