Derin öğrenmeye dayalı videolarda şiddet tespiti

Violence detection in videos based on deep learning

Tez No: 944680
Yazar: AHMET SİVRİDAŞLI
Danışmanlar: DOÇ. DR. AYŞE DEMİRHAN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 104

Özet

Bu çalışmada, video tabanlı insan davranışlarının analizi için zaman serisi temelli bir derin öğrenme mimarisi geliştirilerek şiddet içeren eylemlerin otomatik tespiti amaçlanmıştır. İnsan vücuduna ait poz verileri kullanılarak hareket örüntüleri sayısal olarak modellenmiş ve bu veriler ardışık karelerden oluşan sabit uzunluklu zaman serileri halinde yapay sinir ağına girdi olarak sunulmuştur. Önerilen sistem, insan poz verilerini YOLOv8-Pose algoritması ile tespit ederek her bir birey için 17 eklem noktasının koordinatlarını çıkarmakta; ardından bu koordinatlar tez kapsamında geliştirilen ve VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention) adı verilen Conv1D–BiLSTM ve dikkat mekanizmasına sahip bir derin öğrenme modeliyle işlenerek şiddet ya da normal davranış olarak sınıflandırılmaktadır. Veri setlerinin ön işleme sürecinde normalizasyon ve veri artırma teknikleri uygulanarak modelin genelleme yeteneği güçlendirilmiştir. Eğitim sürecinde sınıf dengesizliği problemi, sınıf ağırlıklandırması yöntemiyle giderilmiş ve modelin azınlık sınıfa (şiddet) karşı duyarlılığı artırılmıştır. Ayrıca, aşırı öğrenmeyi engellemek adına eğitim sırasında erken durdurma stratejisi kullanılmıştır. Eğitim, doğrulama ve test aşamalarında doğruluk, F1 skoru, ROC AUC, hassaslık ve duyarlılık gibi performans metrikleriyle modelin başarımı sistematik olarak değerlendirilmiştir. Modelin etkinliği, gerçek dünyadan derlenmiş Gerçek Hayat Şiddet Durumları Veri Seti (RLVS), Akıllı Şehir CCTV Şiddet Tespiti Veri Seti (SCVD) ve Gerçek Dünya Kavga Veri Seti (RWF-2000) olmak üç farklı video veri seti üzerinde test edilmiştir. Farklı sahne koşullarını içeren bu veri setleri sayesinde, modelin gerek bireysel gerekse grup halinde gerçekleşen şiddet davranışlarını başarıyla tanıyabildiği gözlemlenmiştir. Elde edilen test sonuçlarında, modelin doğruluk oranı yaklaşık %97 olarak ölçülmüş; F1 skoru ve ROC AUC değeri ise 0,97'nin üzerinde gerçekleşmiştir. Bu sonuçlara göre önerilen VioNet-CBA mimarisi, sade fakat etkili yapısıyla literatürdeki birçok yaklaşımdan daha yüksek doğruluk ve genelleme performansı sergilemektedir. Özellikle dikkat mekanizmasının kritik hareket anlarını ön plana çıkarması, şiddet içeren eylemlerin daha doğru sınıflandırılmasına katkı sağlamıştır. Sonuç olarak, insan poz verilerinin zaman serisi formatında işlenmesiyle ham video yerine daha hafif bir mimari kullanılarak şiddet algılama için etkin ve ölçeklenebilir bir sistem geliştirilmiştir. Önerilen VioNet-CBA modeli, yüksek doğruluk oranları ve gerçek zamanlı çalışmaya uygun yapısıyla gözetim sistemleri gibi güvenlik uygulamaları başta olmak üzere çeşitli video analiz senaryolarında başarılı bir şekilde uygulanabilir.

Özet (Çeviri)

In this study, a time series-based deep learning architecture was developed to automatically detect violent actions through the analysis of video-based human behavior. Motion patterns were numerically modeled using human pose data, and these were structured into fixed-length time series composed of consecutive frames, which were then input into an artificial neural network. The proposed system employs the YOLOv8-Pose algorithm to detect human poses and extract the coordinates of 17 keypoints for each individual. These coordinates are then processed by a deep learning model named VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention), developed within the scope of this thesis. This architecture combines Conv1D, BiLSTM, and an attention mechanism to classify actions as either violent or non-violent.During the preprocessing phase, normalization and data augmentation techniques were applied to enhance the model's generalization capability. To address class imbalance, a class weighting approach was utilized, improving the model's sensitivity to the minority (violent) class. Additionally, an early stopping strategy was employed during training to prevent overfitting. The model's performance was systematically evaluated across training, validation, and test phases using metrics such as accuracy, F1-score, ROC AUC, precision, and recall.The effectiveness of the proposed model was tested on three distinct video datasets compiled from real-world scenarios: the Real-Life Violence Situations (RLVS) dataset, the Smart-City CCTV Violence Detection (SCVD) dataset, and the Real-World Fight (RWF-2000) dataset. These datasets encompass a variety of scene conditions, allowing the model to successfully recognize violent behavior both at the individual and group levels. Experimental results demonstrated that the model achieved an accuracy of approximately 97%, with both the F1-score and ROC AUC exceeding 0.97.According to these findings, the proposed VioNet-CBA architecture delivers higher accuracy and generalization performance than many approaches in the literature, despite its relatively simple structure. The attention mechanism, in particular, significantly contributed to the correct classification of violent actions by emphasizing critical motion moments. In conclusion, by processing human pose data in time series format rather than using raw video frames, a lightweight yet effective and scalable system for violence detection was developed. The proposed VioNet-CBA model, with its high accuracy and real-time applicability, can be successfully implemented in various video analysis scenarios, especially in surveillance and security systems.

Benzer Tezler

Tez No
780596
Videolarda derin öğrenme yaklaşımları ile anormal durum tespiti ve boyut indirgeme sistemi
Anomaly detection and size reduction system with deep learning approaches in videos
MEHMET TEVFİK AĞDAŞ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
PROF. DR. SEVİNÇ GÜLSEÇEN
Tez No
805747
Zararlı video içeriklerinin derin öğrenme teknikleri ile tespiti ve filtrelenmesi için bir yazılım aracı geliştirilmesi
Development of a software tool for detecting and filtering harmful video content with deep learning techniques
FATMA GÜLŞAH TAN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Süleyman Demirel Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ASIM SİNAN YÜKSEL
Tez No
693816
Synthetic data generation for training and evaluation of deep learning-based computer vision models
Derin öğrenme-bazlı bilgisayarlı göre modellerinin eğitimi ve değerlendirilmesi için sentetik veri üretimi
ABDULRAHMAN KERİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. UFUK ÇELİKCAN
Tez No
767413
Deep learning based Turkish video indexing and retrieval system
Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi
JAWAD RASHEED
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Sabahattin Zaim Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AKHTAR JAMIL
Tez No
790637
Deep learning based surgical phase recognition in laparoscopic videos
Laparoskopik videolarda derin öğrenme tabanlı cerrahi faz tanıma
KADİR KIRTAÇ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN AYDIN

Geri Dön