Geri Dön

Crowd density map estimation system from aerial images

Havadan alınan görüntülerden yoğunluk haritası tespit sistemi

  1. Tez No: 866240
  2. Yazar: OSMAN TARIK ÇETİNKAYA
  3. Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 101

Özet

Günümüzde insanların kentlerde yaşama tercihi ya da zorunluluğu ile ortaya çıkan kentleşme kavramı toplumsal ve ekonomik bir dönüşümdür. Son zamanlarda sürdürülebilirlik, yaşanabilirlik, yaşam kalitesi, rekabet, markalaşma, yönetişim, katılım, sosyal refah, dijitalleşme gibi birçok unsuru bünyesine katması ve bu sayede kente katkı sağlaması nedeniyle“akıllı şehir”kavramı önemli bir popülarite kazanmıştır. Dünyanın farklı bölgelerinde farklı büyüklükteki şehirler, uzun yıllardır akıllı şehir stratejileri formüle ediyor. Kenti“akıllı”yapmak, kentsel nüfus artışı ve hızlı kentleşmenin yol açtığı sorunları hafifletme stratejisi olarak karşımıza çıkıyor. Büyük bir şehirde artan trafik yoğunluğuna detaylı analizler yaparak akıllı bir çözüm sunabilmek için, otoparklardaki toplam kapasiteye göre yeni gelen araçları uygun şekilde boş alanlara yönlendirerek, kapasite dolduğunda yeni araçların girmesine izin vermeyen otomatik bir sistem geliştirmek güzel bir örnek olarak verilebilir. 23 Şubat 2023 tarihinde Kahramanmaraş, Türkiye'de meydana gelen depremde, depremzedelerin yoğunlaştığı yerleri otomatik olarak tespit edebilen bir sistemin olmasının şimdiden zorunlu hale geldiğini gördük. Böyle bir doğal afet durumunda, vatandaşlara hızlı bir şekilde ulaşabilmek için insansız hava araçlarından yararlanarak bölgedeki insan gruplarını hızlı bir şekilde tespit etmek ve destek sağlamak çok önemli bir hale gelmiştir. Kalabalık sayımına diğer bir uygulama alanı olarak ise askeri amaçlar söylenebilir. Bugün, askeri amaçlar için geliştirilen insansız araçların videolardaki veya fotoğraflardaki görüntüleri işlemesi ve bir algoritma çerçevesinde görevine devam etmesi çok önemlidir. Sınır bölgelerindeki kaçakçılık faaliyetleri veya yasa dışı göç gibi durumlarda, insansız hava araçlarından alınan görüntülerden insanları ve kalabalıkları tahmin edebilmek büyük bir ihtiyaç haline gelmektedir. Kalabalık analizi, anomaliler ve alarm durumları gibi görsel gözetim gerektiren durumlar için çok önemlidir. Son yıllarda, kalabalık tahmini yapmak için birçok farklı yöntem denenmiş ve ¸su anda yoğunluk haritalarını işleyerek kalabalık tahminini hesaplama en popüler yöntem haline gelmiştir. Bu yoğunluk haritaları genellikle Evrişimsel Sinir Ağlarının yardımıyla hesaplanır. Literatürdeki çoğu kalabalık sayım veri kümesinde bulunan görüntüler genellikle gözetim kameralarından elde edilen görüntülerden oluşur. Bu tür görüntüler, insanların çoğunlukla görüntünün büyük bir bölümünü işgal ettiği, nispeten yakın mesafeden uçan drone görüntüsüne benzer bir eğik ve sabit açıdan çekilmiştir. Bu çalışmada önerilen yaklaşım, güvenlik kameralarının olmadığı ortamlarda uçan dronelar ile görüntü alınması gereken acil durumlar için büyük önem taşımaktadır. Geliştirilen sistem iki aşamadan oluşmaktadır. İlk aşamada, bir ikili sınıflandırıcı yardımıyla görüntünün herhangi bir kişiyi içerip içermediğini belirleriz. Eğer giriş görüntüsünde herhangi biri varsa, kalabalık tahmin algoritması verilen görüntüdeki insanların yoğunluk haritasını hesaplar Bu çalışma, derin evrişimli sinir ağı mimarilerinin güçlü öznitelik çıkarma yeteneklerini kullanan bir kalabalık yoğunluğu tespit sisteminin geliştirilmesini içermektedir. Sistemimizde kalabalık sayma görevi için tasarlanmış bir CNN çalıştırmadan önce bir ikili sınıflandırıcı devreye girmektedir. Bu ikili sınıflandırıcı, insansız hava aracından alınan bir görüntüde kişi(ler) olup olmadığını ayırt etmek için sisteme dahil edilmiştir. VisDrone-CC2020 Veri kümesindeki 30 adet etiketsiz video sekansındaki görüntüleri ve kalabalık sayma probleminde kullanılan bazı görüntü verilerini, image inpainting yöntemleri yardımıyla insan içermeyen görüntülere dönüştürdük. Daha sonra bu insan içermeyen görüntüler ile birlikte, VisDrone-CC2020 veri kümesi içerisindeki insan içeren görüntüler bir araya getirilerek özel bir veri seti oluşturulmuştur. Önceden eğitilmiş ResNet50 modeli daha sonra bu problem için bizim özel veri setimizle ince ayar yapılarak eğitilmiş ve %87 doğruluk oranı elde etmiştir. Bu sistemin ikinci aşaması olan kalabalık sayımının yapılabilmesi için öncelikle kesin referans yoğunluk haritaları oluşturulmuştur. Kesin referans yoğunluk haritaları, veri kümeleri tarafından sa˘glanan görüntüler ve etiketler kullanılarak üretilirken, yoğunluk haritaları evri¸simsel sinir a˘gları ile ö˘grenilir. Öğrenilmiş yoğunluk haritası ile kesin referans yo˘gunluk haritası kar¸sıla¸stırılarak bir kayıp hesaplanır ve bu kayıp evrişimsel sinir a˘gı sürekli olarak e˘gitmek için kullanılır. Sonrasında, önceden eğitilmiş mevcut modellerin bir omurga olarak kullanılmasının kalabalık yo˘gunlu˘gu tespit problemine etkisi incelenmi¸stir. Daha sonra bu problem için özel olarak tasarlanmı¸s modeller, çalı¸smamızda kullandı˘gımız veri seti üzerinde e˘gitilmi¸stir. Özellikle iki farklı yöntem üzerinde durulmu¸s ve bunlar üzerinde deneyler yapılmı¸stır. Kalabalık sayma problemi üzerine olu¸sturulan özel modellerde ince ayar yapılmı¸stır. Önerdi˘gimiz yakla¸sımlardan daha iyi sonuçlar veren SGANet kullanarak kalabalık sayma probleminde en çok kullanılan metrik olan MAE (Ortalama Mutlak Sapma) açısından 8.65 de˘gerini elde ettik. Önceden eğitilmiş ResNet50, ResNet18 ve ResNet101 modelleri, özel olarak oluşturduğumuz veri kümemizin test kümesinde test edilmiştir. Bu modellerde ince ayar yapılarak, ince ayarlı ResNet50, ResNet18 ve ResNet101 modelleri de test edilmiştir. Bu ince ayarlı modeller içerisinde tüm katmanlarda oluşturduğumuz veriler ile parametre güncellemesi yapılmıştır. Ayrıca ResNet18 mimarisinin son katmanına karşılık gelen sadece sınıflandırma katmanına ince ayar yapılarak bir model daha eğitilmiş ancak doğruluk sonucu oldukça kötü olduğu için bu yöntemin diğer mimarilere uygulanmasından vazgeçilmiştir. Ardından, ResNet18 ve ResNet50 doğruluk sonuçlarının birbirine çok yakın olduğu ve iyi sonuçlar verdiği belirlendi. Kalabalık sayma problemi için, ImageNet üzerinde önceden eğitilmiş modeller, ShanghaiTech veri kümesinde önceden eğitilmiş bu problem için özel olarak tasarlanmış diğer modeller ve son olarak bu modellerin VisDrone-CC2020 verileri ile ince ayar yapılmış versiyonları karşılaştırılmıştır. CSRNet ve SGANet'in çok iyi sonuçlar verdiği gözlemlenmiştir. Ek olarak, görselleri içerdikleri kişi sayısına göre seyrek ve yoğun olmak üzere iki kategoriye ayırdık ve bu kategoriler için ayrı modeller eğittik. Daha sonra tüm verilerle eğitilmiş başka bir model daha eğittik ve bu modeli diğer iki modelle karşılaştırdık. Sonuç olarak, tüm görüntüleri gören modelin hem yoğun hem de seyrek sahnelerde daha iyi bir performans sergilediğini gösterdik. Daha sonra hem ikili sınıflandırma hem de kalabalık sayımı için eğitilen modeller için bir hata analizi yaptık. İkili sınıflandırma için kullanılan modelde, ikili sınıflandırma için yanlış çıktıların, görüntü iç boyama sonrası fotoğraflarda oluşan yapaylıklardan kaynaklanabileceği sonucuna vardık. Kalabalık sayımı için, yoğun sahnelerdeki küçük yüzdelik hatalarının MAE'yi (Ortalama Mutlak Sapma) çok etkilediği ve bu problem için yeni metrikler geliştirilmesi gerektiği sonucuna varılmıştır. Ayrıca fotoğrafın çekildiği yer ile zemin arasındaki mesafenin çok arttığı fotoğraflarda, yerdeki herhangi bir nesneyi temsil eden pikseller ile bir kişiyi temsil eden piksellerin birbirine yakın ve çok az olduğunu görüyoruz. Dolayısıyla bu sahnelerde sanki gerçek sayıdan daha fazla insan varmış gibi hesaplamalar yapıldığını anladık.

Özet (Çeviri)

Today, the concept of urbanization, which has emerged with the choice or necessity of people to live in cities is a social and economic transformation. In recent times, the notion of a“smart city”has gained significant popularity due to its ability to incorporate various elements like sustainability, livability, quality of life, competition, branding, governance, participation, social welfare, and digitalization, thereby contributing to the advancement of urban development. Cities of varying sizes across different regions of the globe have been formulating smart city strategies for numerous years. Making a city“smart”emerges as a strategy to alleviate the problems caused by urban population growth and rapid urbanization. In order to provide a smart solution to the increasing traffic density in a big city by making detailed analyzes, to develop an automatic system that does not allow new vehicles to enter when the capacity is full by directing the newly arrived vehicles to the empty spaces according to the total capacity in the parking lots, can be given as a good example. In the earthquake that took place in Kahramanmara¸s, Turkey in 23 February, we saw that a system that can automatically detect the places where earthquake victims are concentrated has already become mandatory. In any natural disaster that may occur like this, it has become very important to be able to quickly identify groups of people in the regions and provide support with the help of drones. Military use cases can be mentioned as another application area for crowd counting. Today, it is very important for unmanned vehicles, developed for military purposes, to process the images in videos or photographs and continue their duty within the framework of an algorithm. In the situations such as smuggling activities at the borders or an illegal immigration, it is becoming a great need to be able to predict people and crowds from images taken from UAVs. Crowd analysis is very important for situations that require visual surveillance such as anomalies and alarm situations. In recent years, many different methods have been proposed to perform crowd density map estimation, and it has now become the most popular method to calculate the crowd density map estimation by processing density maps. These density maps are usually calculated with the help of CNNs. Most of the crowd counting datasets in the literature consist of images collected from surveillance cameras. Such images taken at an oblique and fixed angle, with people occupying the majority of the image, taken at a distance relatively close to the drone footage. The proposed approach in this study is of great importance for emergencies where images are required to be taken by drones in the environments where there are no surveillance cameras. The developed system consists of two stages. In the first stage, we determine whether the image contains any person(s) with the help of a binary classifier. If there are persons in the input image, the crowd estimation algorithm then calculates the density map of people in the given image. This study involves the development of a crowd density map detection system that leveraged the robust feature extraction capabilities of deep CNN architectures. A binary classifier comes into play before running a CNN designed for the crowd counting task in our system. This binary classifier is included to the system to distinguish whether there is a person(s) or not in an image taken from an UAV. In order to test the performance of the proposed system we benefited from VisDrone-CC2020 dataset [1]. We used image inpainting methods on this dataset to create UAV images that do not contain any human. For binary classification, the pretrained ResNet50 model [6] was then fine-tuned on the dataset and %87 accuracy was achieved. In order to perform crowd counting, which is the second stage of this system, we used SGANet [9].SGANet has been designed specifically for this problem. We created a new architecture by adding several layers to this network. To train the network, first, ground truth density maps were created. Ground truth density maps are produced using images and labels provided by the dataset, while output density maps are learned with our SGANet. By comparing the learned density map with the ground truth density map, a loss is evaluated, and this loss is used to train our SGANet. We obtained 8.65 MAE, which is the most used metric in the crowd counting task. We then performed an error analysis for the models trained for both binary classification and crowd counting. In the model used for binary classification, we have deduced that the incorrect outputs for binary classification can be caused by the formed artifacts in the photos after image inpainting. For crowd counting, it has been deduced that small percentage errors in dense scenes affect MAE a lot, so new metrics should be developed for this problem. In addition, in photographs where the distance between the place where the photograph was taken and the ground is greatly increased, we see that the pixels representing any object on the ground and the pixels representing a person are close to each other and are very few in number. Therefore, we have deduced that in these scenes calculations are made as if there were more people than the actual number.

Benzer Tezler

  1. Crowd localization and counting via deep flow maps

    Derin öğrenme ile çıkarılan hareket haritaları kullanılarak nesne kalabalıklarının tespiti ve sayımı

    PEDRAM YOUSEFI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL

  2. Anomaly detection for video surveillance in crowded environments

    Kalabalık ortam video görüntülerinde anomali tespiti

    CİHAN ÖNGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLKAY ULUSOY PARNAS

    DOÇ. DR. ALPTEKİN TEMİZEL

  3. Learning weights of losses on multiscale in crowd counting

    Kalabalık sayımında çoklu ölçek kayıplarının ağırlılarının öğrenilmesi

    DERYA UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  4. Fiziksel ve işlevsel çekim noktalarının kentsel güvenlik algısına etkisi: İstanbul-Balat örneği

    The effect of physical and functional points of attraction on urban security perception: The case of Istanbul-Balat

    ELİFSU ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Kentsel Tasarım Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL EREN KÜRKÇÜOĞLU

  5. Cbs destekli analitik hiyerarşi yöntemi ile uygun yer seçimi; Sultanbeyli'de alışveriş merkezleri örneği

    Suitable site selection with gis supported analytical hierarchy process; A case of shopping centers in Sultanbeyli

    AHMET HALİT ÖZMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZAİDE DURAN