Geri Dön

Fight recognition from still images in the wild

Doğal ortamda sabit görüntülerden kavga tespiti

  1. Tez No: 741155
  2. Yazar: ŞEYMANUR AKTI
  3. Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 66

Özet

Şiddet kavramı çoğunluk tarafından hassas bir konu olarak görülür ve olaya karışan veya tanık olan kişiler üzerinde olumsuz etkilere sebep olması kaçınılmazdır. Şiddetin bir türevi olan kavga, kişilerin birbirlerine fiziksel anlamda zarar vermek amacıyla girdikleri etkileşim olarak tanımlanabilir. Günlük hayatta bu tür durumlarla sık karşılaşılmasa da sosyal medya mecralarında paylaşılan şiddet ve kavga içeriklerinin kullanıcılar üzerindeki etkisi bir sorun olarak görülmektedir. Kavga anları olağandışı bir durum olarak görüldüğünden ve ilgi çekebileceği düşünüldüğünden kişiler bu tür olaylara tanık olduklarında olayı kayda alıp sosyal medya hesaplarında paylaşmaya eğilimlidirler. Dahası, medya kurumları da bu tür içeriklerde haber değeri gördüklerinden içeriğin paylaşımı ve yayılmasında etkili olabilirler. Sonuç olarak sosyal medya platformlarında şiddet ve kavga içerikli görüntülere maruz kalmak olasıdır. Bazı kullanıcılar bu tür içeriklere karşı hassas olabilir, benzer şekilde sosyal medya kullanan genç yaştaki bireyler bu tür saldırgan içeriklerden olumsuz etkilenebilir. Bu durumlar göz önünde bulundurulduğunda sosyal medyada şiddet ve kavga içerikli görüntülerin tespit edilerek paylaşımına bir sınırlandırma getirilmesi veya sansürlenmesi ihtiyacı doğmuştur. Görsel veri üzerinde şiddet ve kavga tespiti üzerine geliştirilen çeşitli sistemler bulunmaktadır. Ancak bu çalışmalar sosyal medya verisi üzerine değil, güvenlik kameraları, filmler veya spor oyunları gibi farklı kavramlar üzerine odaklanmıştır. Ayrıca, sosyal medyada karşılaşılan şiddet içerikli görüntülerin çoğunluğu video formunda olsa da sabit görüntü olarak paylaşılan veri miktarı da ihmal edilemez düzeydedir. Ancak önceki çalışmaların tümü video verisi üzerinde şiddet ve kavga tespiti konusunu ele almış ve sabit görüntüleri ele alan herhangi bir çalışma yapılmamıştır. Video verisinde hareket tanımlama için elverişli olan zamansal bilgiye ulaşmak mümkün iken sabit görüntülerde yalnızca uzamsal bilgiden, yani görüntü üzerindeki piksellerin ilişkisinden yararlanılabilir. Bu durum, özellikle kavga tespiti problemini zorlaştırmaktadır çünkü kavga tespiti de bir nevi eylem tanıma problemidir ve zamansal bilginin önemi bu tür problemler için yüksektir. Bu sebeple bu tezde göreceli olarak zor bir problem olan sosyal medyada sabit görüntülerden kavga tespiti üzerine çalışılmıştır. Bu kapsamda öncelikle probleme uygun bir veri kümesi toplanmıştır. Önceki çalışmalarda sunulan veri kümelerinin tamamı video temelli veri kümeleridir ve sosyal medya alanında değillerdir. Bu sebeple probleme yönelik Sosyal Medya Kavga Resimleri (SMFI) isimli bir veri kümesi oluşturulmuştur. Veri kümesine dahil edilen görüntüler Twitter, Google gibi sosyal medya mecralarından ve NTU CCTV-Fight~\cite{roselab-cctv} isimli video veri kümesindeki video karelerinden toplanmıştır. Veri kümesi“kavga”ve“kavga olmayan”şeklinde iki sınıf içermektedir. Oluşturulan veri kümesi toplamda 5,691 görüntü içermektedir ve veri kümesi örneklerin bağlantı bilgileri ile kullanıma açık olarak paylaşılmıştır. Sosyal medyadan toplanan kavga sahneleri kontrolsüz ortamlarda kaydedilmiş görüntülerden oluşmaktadır. Kavga sahnelerinin ani bir şekilde ortaya çıktığı göz önüne alındığında çekimlerin birçoğu etrafta bulunan ve olaya tanık olan kişilerin telefon kameralarından çekilen görüntülerdir. Doğal ortamda kavga tespitine uygun bir veri kümesi geliştirmek için seçilen resimler de bu duruma uygun olarak seçilmiştir. Kontrollü ortamda kaydedilmiş görüntüler ve güvenlik kamerası gibi farklı türlerdeki görüntüler veri kümesine dahil edilmemiştir. Veri kümesini olabildiğince çeşitlendirebilmek için Twitter ve Google'dan veri toplarken çeşitli arama terimleri kullanılmıştır. Sokak kavgası, okulda kavga, çete kavgası gibi arama terimleri kullanılarak olayın gerçekleştiği ortamın ve ortamda bulunan kişi sayısının değişiklik gösterebileceği senaryolar da ele alınmıştır. Ayrıca, yerel sosyal medya paylaşımları ele alındığında, kullanıcılar içeriklerini çoğunlukla kendi ana dillerinde paylaşma eğilimindedir. Farklı coğrafik bölgelerden veri toplayabilmek için arama terimleri kümesi farklı diller de eklenerek genişletilmiştir. Böylece toplanan veri kümesine farklı milletlerden insanlar içeren örnekler de dahil edilmiş ve veri kümesinin taraflı olmasının önüne geçilmiştir. Veri kümesinin kavga olmayan sınıfı da bağlama sadık kalınarak sosyal medya görüntülerinden toplanmıştır. Kavga olmayan sınıfta farklı zorluk seviyelerinde görüntüler dahil edilmiştir. Ayırt edilmesi daha kolay olan örnekler, sosyal medyada paylaşılan ve kontrolsüz ortamlardan uzak, karikatürler, ekran görüntüleri, özçekimler vs. olarak tanımlanabilir. Orta düzeydeki kavga olmayan örnekler gerçek dünyada çekilmiş dış mekan / iç mekan görüntüleri ve normal davranışlar sergileyen insanları içeren bir takım görüntülerdir. Ayırt edilmesi zor olarak görülen örnekler de kavga ile karıştırılabilecek davranışları içeren örneklerdir ve bunlar sarılan insanlar, spor oyunlarında yarışan insanlar, bir şey fırlatan insanlar vb. olarak tanımlanabilir. SMFI veri kümesinin sınıflandırılması için çeşitli görüntü sınıflandırma yöntemleri test edilmiştir. Sınıflandırma aşaması için görüntülerde insan tespiti ve poz belirleme gibi bilgilerden yararlanılması planlansa da kavga gibi anormal bir davranışın bu tür bilgilerin çıkarılması için uygun olmadığı görülmüştür. Görüntüde üst üste gelen nesneler ve insanlar, olağandışı pozisyonlar ve gerçek ortamda çekilen düşük çözünürlüklü görüntüler bu tür ek bilgilerin kullanımına imkan sağlamamıştır. Bu sebeple yalnızca RGB resimler kullanılarak sınıflandırma sağlanmıştır. Öncelikle, görüntü temelli problemlerde yaygın bir şekilde kullanılan Evrişimli Sinir Ağları'nın (Convolutional Neural Network) çeşitli türevleri veri kümesi üzerinde eğitilmiş ve test edilmiştir. Evrişimli Sinir Ağları istenen sonucu veremediği için daha güncel bir yöntem olan Görsel Dönüştürücü (Vision Transformer) ağı kavga ve kavga olmayan sahnelerin sınıflandırılması için kullanılmıştır. Görsel Dönüştürücü yapısındaki öz-dikkat (self-attention) mekanizması sayesinde modelin görüntüden faydalı bilgiler çıkararak başarılı bir şekilde sınıflandırma yaptığı görülmüştür. Bu başarının bir diğer sebebi de hareket sebebiyle bulanık olabilen kavga görüntülerinin bulanık görüntülere karşı dirençli olan Görsel Dönüştürücü ile başarılı bir şekilde tanınması olarak görülmüştür. Veri kümesinin tamamı üzerinde yapılan deneylerin yanı sıra, modelin değişen veri kümesi boyutundan ne şekilde etkilendiği üzerine de bir deney yürütülmüştür. Sosyal medyada paylaşılan veriler zamanlar silinebileceğinden gelecekte veri kümesinin tamamına erişimin mümkün olmayabileceği göz önüne alındığında modelin bu değişiklikten nasıl etkileneceğinin incelenmesi de önem arz etmektedir. Bunun için görüntü sınıflandırma modeli veri kümesinin farklı miktardaki parçaları üzerinde eğitilmiş ve test edilmiştir. Sonuçta her ne kadar veri azaldıkça doğruluk oranı düşüyor olsa da, veri kümesinin \%60'lık kısmının kaybedildiği senaryoda bile modelin başarılı bir şekilde sınıflandırma yapabildiği görülmüştür. Sabit görüntülerde kavga tespiti çalışması sonucunda elde edilen başarılı sonuçlar ışığında video temelli veri kümelerinin de sabit görüntüler üzerinden sınıflandırılıp sınıflandırılamayacağı konusu araştırılmıştır. Bu durumu incelemek için dört adet video temelli veri kümesi seçilmiştir, bunlar Hockey, Movie, Crowd Violence ve Surveillance Fight veri kümeleridir. Bu veri kümelerindeki her bir video örneğinden rastgele bir kare seçilmiş ve bu kareler veri kümelerinin sınıflandırılması için kullanılmıştır. Deneyde video temelli kavga tespiti yöntemleri ile tek kare üzerinde eğitilmiş görüntü sınıflandırma yöntemleri karşılaştırılmış ve ilgi çekici sonuçlar elde edilmiştir. Video temelli veri kümelerinin üçünde (Hockey, Movie ve Crowd Violence) zamansal bilgiden yararlanmadan eğitilen görüntü sınıflandırma modellerinin video temelli yaklaşımların başarımına ulaştığı görülmüştür. Bu veri kümelerindeki videolar incelendiğinde sınıflar arasındaki görsel farkın yüksek olduğu görülmüştür. Bu sebeple yalnızca tek bir kareye bakarak örneğin ait olduğu sınıf belirlenebilmektedir. Elde edilen bu sonuçlar video temelli kavga veri setlerinde bir yanlılık (bias) problemi olması ihtimaline işaret etmektedir. Bu konuyu daha detaylı inceleyebilmek adına çapraz veri kümesi deneyleri yapılmış ve her bir veri kümesi üzerinde eğitilen model diğer veri kümeleri üzerinde test edilerek doğruluk oranlarının ortalaması hesaplanmıştır. Bu deneyde elde edilen sonuçlar Hockey, Movie ve Crowd Violence veri kümelerinde eğitilen modellerin aynı veri kümelerinde test edildiğinde mükemmele yakın sonuç vermelerine rağmen, farklı bir kavga veri kümesi üzerinde test edildiğinde oldukça düşük performans elde edildiğini göstermiştir. Bu sonuç, bahsi geçen veri kümelerinin kavga tespiti problemini genelleme konusunda başarısız olduğunu ve bu veri kümelerinde yanlılık problemi olduğunu göstermiştir. Diğer yandan tez kapsamında geliştirilen SMFI veri kümesi üzerinde eğitilen model, diğer veri kümeleri üzerinde de tatmin edici bir performans sergilemiştir ve SMFI veri kümesinin kavga tespiti için yeteri kadar kapsamlı bir veri kümesi olduğu gösterilmiştir. Sonuç olarak tez kapsamında daha önce ele alınmamış olan sabit görüntülerde kavga tespiti konusu ele alınmıştır. Bu kapsamda öncelikle probleme uygun bir veri kümesi oluşturulması için sosyal medya platformlarından kavga görüntüleri toplanmış ve etiketlenmiştir. Bu veri kümesinin sınıflandırılması için görüntü sınıflandırma ağları test edilmiş ve kapsamlı bir deneysel analiz gerçekleştirilmiştir. Elde edilen sonuçlar Görsel Dönüştürücü modelinin sunulan veri kümesini başarıyla sınıflandırabildiğini ve değişen veri kümesi boyutuna karşı dirençli olduğunu göstermiştir. Ayrıca video temelli veri kümeleri üzerinde yapılan karşılaştırmalı deneyler bu veri kümelerindeki yanlılık (bias) problemini ortaya çıkarmış ve sunulan SMFI veri kümesinin kavga tespiti problemini yeterince iyi bir şekilde kapsadığı görülmüştür.

Özet (Çeviri)

Violence in general is a sensitive subject and can have a negative impact on both the involved people and witnesses. Fighting is one of the most common types of violence which can be defined as an act where individuals intend to harm each other physically. In daily life, these kinds of situations might not be faced too often, however, the violent content on social media is also a big concern for the users. Since violent acts or fights in particular are considered as an anomaly or intriguing for some, people tend to record these scenes and upload them on their social media accounts. Similarly, news agencies also regard them as newsworthy material in some cases. As a result, fighting scenes become available on social media platforms frequently. Some users may be sensitive to these kinds of media content and children who can be harmed due to the aggressive nature of the fight scenes also uses social media. These facts make it necessary to detect and put limitations on the distribution of violent content on social media. There are some systems focusing on violence and fight recognition on visual data. However, these works mostly propose methods on different domains for violence such as movies, surveillance cameras, etc., and the social media case remains unexplored. Furthermore, even if most of the fight scenes shared on social media are in video sequences, there is also a non-ignorable amount of image data depicting violent fighting. However, no work tackles the fight recognition from still images instead of videos. Thus, in this thesis, the problem of fight recognition from still images is investigated. In this scope, first, a novel dataset was collected from social media images which is named Social Media Fight Images (SMFI). The dataset was collected from Twitter and Google images and some frames were included from the video dataset of NTU CCTV-Fights. The fight samples were chosen among the samples which are recorded in uncontrolled environments. In order to crawl a large amount of data, different keywords were used in various languages. The non-fight samples were also chosen among the data crawled from social media in order to keep the domain consistent across the classes. The dataset is made publicly available by sharing the links to the images. For the classification of the Social Media Fight Images dataset, some image classification methods were applied to the dataset. First, Convolutional Neural Networks (CNN) were employed for the task and their performance was assessed. Then, a recent approach, Vision Transformer (ViT) was exploited for the classification of the fight and non-fight images. The comparison showed that the Vision Transformer gives better results on the dataset achieving a higher accuracy with less overfit. A further experiment was also held on investigating the effect of varying dataset sizes on the performance of the model. This was seen as necessary as the data shared on social media may be deleted in the future and it is not always possible to retrieve the whole dataset. So, the model was trained on different partitions of the dataset and the results showed that even if using more data is better, the model could still give satisfying performance even in absence of 60% of the dataset. Upon the successful results on fight recognition on still images problem, another experimental study was conducted on the classification of video-based datasets using a single frame from each sample. The experiment included four video-based fight datasets and results showed that three of them could be successfully classified without using any temporal information. This indicated that there might be a dataset bias for these three datasets where the inter-class visual difference is high across the classes. Cross-dataset experiments also supported this hypothesis where the trained models on these video datasets perform poorly on the other fight recognition datasets. Nonetheless, the network trained on the proposed SMFI dataset gave a promising accuracy on other datasets as well, showing that the dataset generalizes the fight recognition problem better than the others.

Benzer Tezler

  1. Video üzerinde derin öğrenme ile nesne sansürlüme

    Sensor processing on video with deep learni̇ng

    YERNIYAZ BAKHYTOV

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CEMİL ÖZ

  2. Hand gesture recognition system

    El işareti tanıma sistemi

    EMRAH GİNGİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    DOÇ. DR. MEHMET METE BULUT

    PROF. DR. GÖZDE BOZDAĞI AKAR

  3. Milletlerarası ticari tahkimde yolsuzluk karşıtı kurallar

    Anti-corruption rules in international commercial arbitration

    YAVUZ SELİM TAŞKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukAnkara Üniversitesi

    Özel Hukuk Ana Bilim Dalı

    DOÇ. DR. KAZIM SEDAT SİRMEN

  4. Gıda sektöründe stratejik iletişim yönetimi olarak konu yönetimi ve uygulamaları

    Issues management in the food industry as a strategic communication management

    MELTEM GÖKMEN TOL

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    İletişim BilimleriGalatasaray Üniversitesi

    İletişim Ana Bilim Dalı

    DOÇ. DR. KEREM RIZVANOĞLU

  5. Le supporterisme comme une identite contre culturelle : etude des modes de construction identitaire dans et autour des stades de football a istanbul

    Karşı kültürel bir kimlik olarak taraftarlık: istanbul futbol tribünlerinde kimliksel yapılanış biçimleri çalışması

    ONUR AVCI

    Yüksek Lisans

    Fransızca

    Fransızca

    2014

    SosyolojiGalatasaray Üniversitesi

    Sosyoloji Ana Bilim Dalı

    YRD. DOÇ. DR. FEYZA AK AKYOL