Derin öğrenmeye dayalı videolarda şiddet tespiti
Violence detection in videos based on deep learning
- Tez No: 944680
- Danışmanlar: DOÇ. DR. AYŞE DEMİRHAN
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 104
Özet
Bu çalışmada, video tabanlı insan davranışlarının analizi için zaman serisi temelli bir derin öğrenme mimarisi geliştirilerek şiddet içeren eylemlerin otomatik tespiti amaçlanmıştır. İnsan vücuduna ait poz verileri kullanılarak hareket örüntüleri sayısal olarak modellenmiş ve bu veriler ardışık karelerden oluşan sabit uzunluklu zaman serileri halinde yapay sinir ağına girdi olarak sunulmuştur. Önerilen sistem, insan poz verilerini YOLOv8-Pose algoritması ile tespit ederek her bir birey için 17 eklem noktasının koordinatlarını çıkarmakta; ardından bu koordinatlar tez kapsamında geliştirilen ve VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention) adı verilen Conv1D–BiLSTM ve dikkat mekanizmasına sahip bir derin öğrenme modeliyle işlenerek şiddet ya da normal davranış olarak sınıflandırılmaktadır. Veri setlerinin ön işleme sürecinde normalizasyon ve veri artırma teknikleri uygulanarak modelin genelleme yeteneği güçlendirilmiştir. Eğitim sürecinde sınıf dengesizliği problemi, sınıf ağırlıklandırması yöntemiyle giderilmiş ve modelin azınlık sınıfa (şiddet) karşı duyarlılığı artırılmıştır. Ayrıca, aşırı öğrenmeyi engellemek adına eğitim sırasında erken durdurma stratejisi kullanılmıştır. Eğitim, doğrulama ve test aşamalarında doğruluk, F1 skoru, ROC AUC, hassaslık ve duyarlılık gibi performans metrikleriyle modelin başarımı sistematik olarak değerlendirilmiştir. Modelin etkinliği, gerçek dünyadan derlenmiş Gerçek Hayat Şiddet Durumları Veri Seti (RLVS), Akıllı Şehir CCTV Şiddet Tespiti Veri Seti (SCVD) ve Gerçek Dünya Kavga Veri Seti (RWF-2000) olmak üç farklı video veri seti üzerinde test edilmiştir. Farklı sahne koşullarını içeren bu veri setleri sayesinde, modelin gerek bireysel gerekse grup halinde gerçekleşen şiddet davranışlarını başarıyla tanıyabildiği gözlemlenmiştir. Elde edilen test sonuçlarında, modelin doğruluk oranı yaklaşık %97 olarak ölçülmüş; F1 skoru ve ROC AUC değeri ise 0,97'nin üzerinde gerçekleşmiştir. Bu sonuçlara göre önerilen VioNet-CBA mimarisi, sade fakat etkili yapısıyla literatürdeki birçok yaklaşımdan daha yüksek doğruluk ve genelleme performansı sergilemektedir. Özellikle dikkat mekanizmasının kritik hareket anlarını ön plana çıkarması, şiddet içeren eylemlerin daha doğru sınıflandırılmasına katkı sağlamıştır. Sonuç olarak, insan poz verilerinin zaman serisi formatında işlenmesiyle ham video yerine daha hafif bir mimari kullanılarak şiddet algılama için etkin ve ölçeklenebilir bir sistem geliştirilmiştir. Önerilen VioNet-CBA modeli, yüksek doğruluk oranları ve gerçek zamanlı çalışmaya uygun yapısıyla gözetim sistemleri gibi güvenlik uygulamaları başta olmak üzere çeşitli video analiz senaryolarında başarılı bir şekilde uygulanabilir.
Özet (Çeviri)
In this study, a time series-based deep learning architecture was developed to automatically detect violent actions through the analysis of video-based human behavior. Motion patterns were numerically modeled using human pose data, and these were structured into fixed-length time series composed of consecutive frames, which were then input into an artificial neural network. The proposed system employs the YOLOv8-Pose algorithm to detect human poses and extract the coordinates of 17 keypoints for each individual. These coordinates are then processed by a deep learning model named VioNet-CBA (Violence Network with Convolution, BiLSTM, and Attention), developed within the scope of this thesis. This architecture combines Conv1D, BiLSTM, and an attention mechanism to classify actions as either violent or non-violent.During the preprocessing phase, normalization and data augmentation techniques were applied to enhance the model's generalization capability. To address class imbalance, a class weighting approach was utilized, improving the model's sensitivity to the minority (violent) class. Additionally, an early stopping strategy was employed during training to prevent overfitting. The model's performance was systematically evaluated across training, validation, and test phases using metrics such as accuracy, F1-score, ROC AUC, precision, and recall.The effectiveness of the proposed model was tested on three distinct video datasets compiled from real-world scenarios: the Real-Life Violence Situations (RLVS) dataset, the Smart-City CCTV Violence Detection (SCVD) dataset, and the Real-World Fight (RWF-2000) dataset. These datasets encompass a variety of scene conditions, allowing the model to successfully recognize violent behavior both at the individual and group levels. Experimental results demonstrated that the model achieved an accuracy of approximately 97%, with both the F1-score and ROC AUC exceeding 0.97.According to these findings, the proposed VioNet-CBA architecture delivers higher accuracy and generalization performance than many approaches in the literature, despite its relatively simple structure. The attention mechanism, in particular, significantly contributed to the correct classification of violent actions by emphasizing critical motion moments. In conclusion, by processing human pose data in time series format rather than using raw video frames, a lightweight yet effective and scalable system for violence detection was developed. The proposed VioNet-CBA model, with its high accuracy and real-time applicability, can be successfully implemented in various video analysis scenarios, especially in surveillance and security systems.
Benzer Tezler
- Videolarda derin öğrenme yaklaşımları ile anormal durum tespiti ve boyut indirgeme sistemi
Anomaly detection and size reduction system with deep learning approaches in videos
MEHMET TEVFİK AĞDAŞ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. SEVİNÇ GÜLSEÇEN
- Zararlı video içeriklerinin derin öğrenme teknikleri ile tespiti ve filtrelenmesi için bir yazılım aracı geliştirilmesi
Development of a software tool for detecting and filtering harmful video content with deep learning techniques
FATMA GÜLŞAH TAN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ASIM SİNAN YÜKSEL
- Synthetic data generation for training and evaluation of deep learning-based computer vision models
Derin öğrenme-bazlı bilgisayarlı göre modellerinin eğitimi ve değerlendirilmesi için sentetik veri üretimi
ABDULRAHMAN KERİM
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. UFUK ÇELİKCAN
- Deep learning based Turkish video indexing and retrieval system
Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi
JAWAD RASHEED
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AKHTAR JAMIL
- Deep learning based surgical phase recognition in laparoscopic videos
Laparoskopik videolarda derin öğrenme tabanlı cerrahi faz tanıma
KADİR KIRTAÇ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN AYDIN