Geri Dön

Derin öğrenmeye dayalı videolarda şiddet tespiti

Violence detection in videos based on deep learning

  1. Tez No: 944680
  2. Yazar: AHMET SİVRİDAŞLI
  3. Danışmanlar: DOÇ. DR. AYŞE DEMİRHAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 104

Özet

Bu çalışmada, video tabanlı insan davranışlarının analizi için zaman serisi temelli bir derin öğrenme mimarisi geliştirilerek şiddet içeren eylemlerin otomatik tespiti amaçlanmıştır. İnsan vücuduna ait poz verileri kullanılarak hareket örüntüleri sayısal olarak modellenmiş ve bu veriler ardışık karelerden oluşan sabit uzunluklu zaman serileri halinde yapay sinir ağına girdi olarak sunulmuştur. Önerilen sistem, insan poz verilerini YOLOv8-Pose algoritması ile tespit ederek her bir birey için 17 eklem noktasının koordinatlarını çıkarmakta; ardından bu koordinatlar tez kapsamında geliştirilen ve VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention) adı verilen Conv1D–BiLSTM ve dikkat mekanizmasına sahip bir derin öğrenme modeliyle işlenerek şiddet ya da normal davranış olarak sınıflandırılmaktadır. Veri setlerinin ön işleme sürecinde normalizasyon ve veri artırma teknikleri uygulanarak modelin genelleme yeteneği güçlendirilmiştir. Eğitim sürecinde sınıf dengesizliği problemi, sınıf ağırlıklandırması yöntemiyle giderilmiş ve modelin azınlık sınıfa (şiddet) karşı duyarlılığı artırılmıştır. Ayrıca, aşırı öğrenmeyi engellemek adına eğitim sırasında erken durdurma stratejisi kullanılmıştır. Eğitim, doğrulama ve test aşamalarında doğruluk, F1 skoru, ROC AUC, hassaslık ve duyarlılık gibi performans metrikleriyle modelin başarımı sistematik olarak değerlendirilmiştir. Modelin etkinliği, gerçek dünyadan derlenmiş Gerçek Hayat Şiddet Durumları Veri Seti (RLVS), Akıllı Şehir CCTV Şiddet Tespiti Veri Seti (SCVD) ve Gerçek Dünya Kavga Veri Seti (RWF-2000) olmak üç farklı video veri seti üzerinde test edilmiştir. Farklı sahne koşullarını içeren bu veri setleri sayesinde, modelin gerek bireysel gerekse grup halinde gerçekleşen şiddet davranışlarını başarıyla tanıyabildiği gözlemlenmiştir. Elde edilen test sonuçlarında, modelin doğruluk oranı yaklaşık %97 olarak ölçülmüş; F1 skoru ve ROC AUC değeri ise 0,97'nin üzerinde gerçekleşmiştir. Bu sonuçlara göre önerilen VioNet-CBA mimarisi, sade fakat etkili yapısıyla literatürdeki birçok yaklaşımdan daha yüksek doğruluk ve genelleme performansı sergilemektedir. Özellikle dikkat mekanizmasının kritik hareket anlarını ön plana çıkarması, şiddet içeren eylemlerin daha doğru sınıflandırılmasına katkı sağlamıştır. Sonuç olarak, insan poz verilerinin zaman serisi formatında işlenmesiyle ham video yerine daha hafif bir mimari kullanılarak şiddet algılama için etkin ve ölçeklenebilir bir sistem geliştirilmiştir. Önerilen VioNet-CBA modeli, yüksek doğruluk oranları ve gerçek zamanlı çalışmaya uygun yapısıyla gözetim sistemleri gibi güvenlik uygulamaları başta olmak üzere çeşitli video analiz senaryolarında başarılı bir şekilde uygulanabilir.

Özet (Çeviri)

In this study, a time series-based deep learning architecture was developed to automatically detect violent actions through the analysis of video-based human behavior. Motion patterns were numerically modeled using human pose data, and these were structured into fixed-length time series composed of consecutive frames, which were then input into an artificial neural network. The proposed system employs the YOLOv8-Pose algorithm to detect human poses and extract the coordinates of 17 keypoints for each individual. These coordinates are then processed by a deep learning model named VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention), developed within the scope of this thesis. This architecture combines Conv1D, BiLSTM, and an attention mechanism to classify actions as either violent or non-violent.During the preprocessing phase, normalization and data augmentation techniques were applied to enhance the model's generalization capability. To address class imbalance, a class weighting approach was utilized, improving the model's sensitivity to the minority (violent) class. Additionally, an early stopping strategy was employed during training to prevent overfitting. The model's performance was systematically evaluated across training, validation, and test phases using metrics such as accuracy, F1-score, ROC AUC, precision, and recall.The effectiveness of the proposed model was tested on three distinct video datasets compiled from real-world scenarios: the Real-Life Violence Situations (RLVS) dataset, the Smart-City CCTV Violence Detection (SCVD) dataset, and the Real-World Fight (RWF-2000) dataset. These datasets encompass a variety of scene conditions, allowing the model to successfully recognize violent behavior both at the individual and group levels. Experimental results demonstrated that the model achieved an accuracy of approximately 97%, with both the F1-score and ROC AUC exceeding 0.97.According to these findings, the proposed VioNet-CBA architecture delivers higher accuracy and generalization performance than many approaches in the literature, despite its relatively simple structure. The attention mechanism, in particular, significantly contributed to the correct classification of violent actions by emphasizing critical motion moments. In conclusion, by processing human pose data in time series format rather than using raw video frames, a lightweight yet effective and scalable system for violence detection was developed. The proposed VioNet-CBA model, with its high accuracy and real-time applicability, can be successfully implemented in various video analysis scenarios, especially in surveillance and security systems.

Benzer Tezler

  1. Videolarda derin öğrenme yaklaşımları ile anormal durum tespiti ve boyut indirgeme sistemi

    Anomaly detection and size reduction system with deep learning approaches in videos

    MEHMET TEVFİK AĞDAŞ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. SEVİNÇ GÜLSEÇEN

  2. Zararlı video içeriklerinin derin öğrenme teknikleri ile tespiti ve filtrelenmesi için bir yazılım aracı geliştirilmesi

    Development of a software tool for detecting and filtering harmful video content with deep learning techniques

    FATMA GÜLŞAH TAN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ASIM SİNAN YÜKSEL

  3. Synthetic data generation for training and evaluation of deep learning-based computer vision models

    Derin öğrenme-bazlı bilgisayarlı göre modellerinin eğitimi ve değerlendirilmesi için sentetik veri üretimi

    ABDULRAHMAN KERİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. UFUK ÇELİKCAN

  4. Deep learning based Turkish video indexing and retrieval system

    Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi

    JAWAD RASHEED

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AKHTAR JAMIL

  5. Deep learning based surgical phase recognition in laparoscopic videos

    Laparoskopik videolarda derin öğrenme tabanlı cerrahi faz tanıma

    KADİR KIRTAÇ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN AYDIN