Geri Dön

Crowd counting, localization and anomaly detection with convLSTM based CNN using synthetic images

Evrişimli uzun-kısa süreli hafıza tabanlı evrişimsel sinir ağları ile sentetik görüntüler kullanarak kalabalık sayımı, lokalizasyonu ve anomali tespiti

  1. Tez No: 745431
  2. Yazar: MUHAMMET FURKAN COŞKUN
  3. Danışmanlar: PROF. DR. GÖZDE AKAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 110

Özet

Güvenlik amaçlı izleme, trafik yönetimi, afet yönetimi ve halka açık alanların dizaynı gibi bir çok topluma yararlı uygulamaları sebebiyle, kalabalık analizi problemleri son yıllarda popülerleşmeye başladı. Bilgisayarlı görü literatüründe kalabalık sayımı, lokalizasyonu ve kalabalıkta anomali tespiti konularında bir çok çalışmalar mevcuttur. Bu çalışmada, bahsedilen bu üç problemi birlikte tek bir derin sinir ağı ile çözen ConvLSTM tabanlı bir evrişimli sinir ağı önerilmiştir. Önerilen model, bir kalabalık sayımı ve lokalizasyonu olan P2P-Net algoritması ile özgün olarak tasarlanan ve önerilen bir kalabalık anomali tespiti modülünden oluşmaktadır. P2P-Net algoritması, bir VGG-16 omurgası ile bu omurgadan çıkan öznitelik haritası üzerinden direkt olarak nokta tabanlı tahmin yapan iki adet kafadan oluşmaktadır. Anomali tespit modulü ise bir adet ConvLSTM kodlayıcı ve bir adet ikili tahmin yapan anomali tespiti kafasının birleşimidir. Önerilen ağ mimarisi ortak omurga, çoklu kafa yapısına sahiptir ve üç problem için birlite çıktı ürekmektedir. Bu problemler: kalabalık sayımı, kalabalık lokalizasyonu ve kalabalıkta anomali tespitidir. Önerilen mimari sentetik görüntüler ile uçtan uça eğitilmiştir. Kalabalık sayımı ve lokalizasyonu problemleri yüksek doğruluklu piksel seviyesinde etiketlemelere ihtiyaç duyduğu için, bu problemler için gerçek dünya görüntülerinden etiketli veri kümesi oluşturmak çok fazla insan emeği gerektirir ve zordur. Kalabalık için anomali tanımı konusunda uzlaşılmış bir tanım olmadığından farklı veri setlerinde farklı tanımlar bulunmakta ve farklı veri kümeleri bir arada kullanılamamaktadır. Ayrıca, mevcut veri kümelerinden bir ağı baştan sona eğitecek kadar veri bulunan bir küme bulunmamaktadır. Bahsedilen veri kümesi problemlerinden dolayı, bu çalışmada eğitim sırasında sentetik veri kümesi kullanılmıştır. Probleme uygun GTA-Events isimli bir sentetik veri kümesi olmasına rağmen bu veri kümesindeki veri azlığı nedeniyle GTA-V oyunu kullanarak probleme uygun yeni bir veri kümesi oluşturulmuştur. Oluşturulan veri kümesi farklı sahneleri, zamanları ve hava koşullarını içermektedir. Model eğitilirken GTA-Events veri kümesi ve oluşturulan veri kümesini birlikte kullanılmıştır. Ardından hem gerçek dünya görüntüleri hem de sentetik görüntüler ile testler gerçekleştirilmiştir. Sonuçlar, kalabalıkta anomali tespiti probleminde yüzde doksanlara yakın başarım sağlandığını ve klasik optik akış tabanlı yöntemlerin geçildiğini göstermektedir. Kalabalık sayımı ve lokalizasyonu probleminde ise sentetik görüntülerde mevcut yöntemlerden çok daha iyi durumda iken gerçek dünya görüntülerinde bir miktar geride olduğu görülmektedir. Bu çalışma ile çoklu kalabalık problemlerinin tek bir derin öğrenme mimarisi ile çözülebileceğini gösterilmiştir. Kalabalık sayımı ve lokalizasyonu için kullanılan regresyon ve sınıflandırma kafa yapılarının kullanılmasının anomali tespit doğruluğunu artırdığı görülmüştür. Bu amaçla sadece anomali tespiti yapılan bir ağ, regresyon ve sınıflandırma kayıp fonksiyonları olmadan yalnızca anomali kayıp fonksiyonu kullanılarak eğitilmiştir. Sonuçlar önerilen çoklu tahmin yapısının, sadece anomali tahmini durumuna göre daha başarılı olduğunu göstermektedir. Ayrıca, bu çalışmada sentetik veri kümeleri hakkında bilgiler ve GTA-V oyunu kullanarak bir sentetik veri kümesi oluşturma prosedürü de verilmiştir.

Özet (Çeviri)

Crowd analysis related tasks have a wide range of real-life applications such as mass surveillance, safety monitoring, disaster management, traffic control and public area design. There are different novel works on crowd counting, localization and abnormal event detection tasks in the computer vision literature. In this study, we propose a ConvLSTM based Convolutional Neural Network to solve these three problems together in a single network. Our proposed model is a combination of P2P-Net architecture, which is a crowd counting and localization architecture, with a novel crowd anomaly detection module. P2P-Net architecture uses a VGG-16 network as the backbone and directly predicts the point proposals that represent the human heads. The proposed crowd anomaly head consists of an LSTM encoder with two LSTM cells and a fully convolutional anomaly binary classifier head. The proposed architecture has single backbone, multiple head structure and makes predictions for three different crowd tasks: crowd counting, crowd localization and crowd anomaly detection. We train the whole model in an end-to-end manner using synthetic data. Since counting and localization in crowd problem requires pixel-level annotations, real-world dataset creation process involves significant manual effort. Moreover, since an unified definition for crowd anomaly situation has not existed yet, there are different crowd anomaly datasets that have different anomaly definitions. For this reason, multiple datasets couldn't be used together to train a network. Moreover, none of them are big enough to train a decent ConvLSTM network. To overcome this data problem, we use synthetic datasets for network training. There is a synthetic dataset that fits our problem, called GTA-Events dataset. However, since the amount of data and scene variations is not enough in this dataset, we created a realistic synthetic dataset using the GTA-V game. Our novel synthetic dataset, named as METU Synthetic Crowd Dataset(METU-SCD), includes different scenarios, weather conditions and time intervals of the day. We train our proposed model with our novel synthetic dataset along with the GTA-Events dataset. Results show that the proposed model reaches over 90\% accuracy in crowd anomaly detection task and outperform optical-flow based methods. In crowd counting and localization tasks, it outperform the base model(P2P-Net) on synthetic data, whereas the real data results are somewhat behind than other methods. We, also, conduct an ablation study on the effect of counting and regression losses to anomaly performance. It is shown that training the network with a combination of counting, regression and anomaly losses brings increase in anomaly prediction score compared to the case that only anomaly loss is used.

Benzer Tezler

  1. Crowd localization and counting via deep flow maps

    Derin öğrenme ile çıkarılan hareket haritaları kullanılarak nesne kalabalıklarının tespiti ve sayımı

    PEDRAM YOUSEFI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL

  2. Learning weights of losses on multiscale in crowd counting

    Kalabalık sayımında çoklu ölçek kayıplarının ağırlılarının öğrenilmesi

    DERYA UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  3. Domain adaptation for crowd counting

    Kalabalık sayımı için etki alanı uyarlaması

    CENGİZHAN HALDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASARİ ÇELEBİ

    DOÇ. DR. ERCHAN APTOULA

  4. Crowd density map estimation system from aerial images

    Havadan alınan görüntülerden yoğunluk haritası tespit sistemi

    OSMAN TARIK ÇETİNKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  5. Automated crowd behavior analysis for video surveillance applications

    Video gözetleme uygulamaları için otomatik kalabalık davranışı analizi

    PÜREN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    YRD. DOÇ. DR. ALPTEKİN TEMİZEL

    YRD. DOÇ. DR. TUĞBA TAŞKAYA TEMİZEL