Geri Dön

Crowd localization and counting via deep flow maps

Derin öğrenme ile çıkarılan hareket haritaları kullanılarak nesne kalabalıklarının tespiti ve sayımı

  1. Tez No: 885457
  2. Yazar: PEDRAM YOUSEFI
  3. Danışmanlar: PROF. DR. BİLGE GÜNSEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 105

Özet

Kalabalık analizi, nesne kalabalıklarının yerlerinin tespiti, uzaklık dağılımlarının ve karakteristiklerinin anlaşılması ve bunların yanısıra belli bir bölgedeki nesne sayısının belirlenmesini amaçlar. İnsan kalabalıklarının analizi ve izlenmesi güvenlik, şehir planlama, karışıklık önleme gibi uygulamalar açısından önemlidir. İnsan kalabalıklarının analizi amacıyla literatürde yıllardır birçok yöntem geliştirilmiştir. İlk yaklaşımlar her bir kişinin yeri belirlenerek sezilmesine ve sayılmasına dayanmaktaydı ancak bu yöntemler ile örtüşen ya da çok küçük ölçekte görünen kişilerin tam olarak belirlenmesindeki zorluklar ve yüksek işlemsel yük nedeniyle yeterli performansa erişilememiştir. Bu yöntemlere alternatif olarak kalabalıkların uzaklık dağılımlarından nesne sayısını öngören regresyon-tabanlı modeller önerilmiştir. Ancak bu yöntemler de benzer sorunlar nedeniyle istenilen performansı sağlayamamıştır. Derin öğrenme ağlarındaki gelişim ve konvolüsyonel yapay sinir ağları (CNN) kullanan ağ mimarilerinin geliştirilmesi ile literatürde CNN-tabanlı yöntemler ön plana çıkmıştır. Bu yöntemler arasında son yıllarda yoğunluk-haritası tabanlı yaklaşımlar geliştirilmiştir. Yoğunluk-haritası kalabalık görüntüsünde nesne merkezleri arasındaki uzaklıkları kodlayan bir gösterimdir. Bu kodlama, her nesne merkezine yerleştirilen nesne boyutuna uygun standart sapmalı Gauss çekirdeklerinin toplanması ile sağlanır. Böylelikle referans yoğunluk-haritası gösteriminde giriş görüntüsü, nesne merkez uzaklıklarına göre değişen tonlamalar ile oluşturulan, yoğunluk-haritası uzayına aktarılmış olur. Öğreticili öğrenme gerçekleyen derinlik-haritası tabanlı topluluk analizi yöntemleri, derin ağ girişine verilen referans yoğunluk-haritaları ile kalabalık görüntülerinin ilişkilendirilmesi ve ağ çıktısında referans derinlik-haritasının en küçük hata ile üretilmesini amaçlar. Ayrıca regresör çıkışındaki derinlik-haritasından olasılık dağılımlarına ilişkin genel kurallar kullanılarak görüntüdeki toplam nesne sayısı da belirlenmektedir. Literatürde önerilen yöntemler çoğunlukla insan kalabalıkları için geliştirilmiştir ve kamera ile alınan ayrık görüntüleri kullanmaktadır. Ancak topluluk analizinde ortamdan alınan videoların sağladığı zamansal bilginin kullanılması da önemlidir. Bu amaçla yönelik olarak literatürde son yıllarda video kullanan yöntemler önerilmektedir. Tez kapsamında derin öğrenme kullanılarak kalabalık tespiti konusunda literatüre katkı yapmak hedeflenmiştir. Bu amaçla tez çalışmasında yoğunluk-tabanlı derin öğrenme yaklaşımı benimsenmiş olup literatürdeki video işleyen yüksek performanslı CANnet2s derin öğrenme ağı temel alınmıştır. CANnet2s giriş görüntüsünü eşit alt bölgelere ayırarak işler ve her alt bölgeyeilişkin özniteliklerin yanısıra ileriye ve geriye doğru nesne akışlarını da öğrenir. Eğitilen model ile çıkarım aşamasında, derin ağ üst katmanındaki regresör çıkışında kalabalığı oluşturan nesnelerin on temel doğrultuda yapacakları hareketi modelleyen akış-haritaları, bir diğer regresör çıkışında ise topluluktaki nesne sayısı elde edilir. Tez çalışması kapsamında ilgilenilen problemler ve erişilen sonuçlar üç başlıkta toplanabilir. Öncelikle insan kalabalıkları için önerilmiş olan CANnet2s derin ağ mimarisi yeniden eğitilerek FDST, ShanghaiTech ve JHU-Crowds++ insan kalabalıkları veri tabanlarında performansı raporlanmıştır. Benzer eğitim ve testler CANnet2s ağının temel aldığı, ayrık görüntüler üzerinden öğrenme gerçekleyen CAN derin öğrenme ağı ile tekrarlanarak video üzerinden öğrenmenin insan kalabalıklarının analizinde performansı yüksek oranda arttırdığı gösterilmiştir. CANnet2s ile CAN derin öğrenme ağına göre FDST ve ShanghaiTech veri setlerinde ortalama mutlak hata oranı (MAE) ölçeğinde %40 a yakın, JHU-Crowds++ veri setinde %10 iyileşme raporlanmıştır. Tez kapsamında, literatürden farklı olarak, CANnet2s derin öğrenme ağı araç kalabalıklarının analizine uyarlanmıştır. Bu kapsamda öncelikle literatürde sıklıkla kullanılan TRANCOS veri tabanı ile eğitim yapılmıştır. TRANCOS veri seti düşük çözünürlüklü görüntü kayıtları içermektedir ve CANnet2s ile CAN 'den daha iyi ancak literatürde varolan çalışmalara göre ikinci en iyi MAE değeri elde edilmiştir. Ardından otonom sürüş amaçlı video kayıtlarından oluşan WAYMO veri tabanında araç kalabalıkları için eğitim yapılmış ve analiz performansı raporlanmıştır. WAYMO veri tabanı 5 farklı kameradan video kayıtları içeren büyük bir veri tabanı olup tez çalışmasından ön kameradan alınan ve etiketlenmiş olarak sunulmuş olan 140 video segmenti kullanılmıştır. CANnet2s ve CAN derin öğrenme ağları WAYMO verisi için eğitilerek performans literatürdeki CSRNet sonuçları ile karşılaştırmalı olarak raporlanmıştır. Araç topluluklarının analizinde CANnet2s, CAN ve CSRNet sırasıyla 5.46, 7.74 ve 11.69 MAE değerlerine ulaşmış oplu en yüksek performans CANnet2s ile elde edilmiştir. Bunun yanısıra, CANnet2s ile eğitimin 150 epokta tamamlanarak CAN ile 500 epokta tamamlanan eğitimden daha düşük hata değerlerine ulaşılmış olması, CANnet2s ile araç topluluklarının yerleşiminin çok daha hızlı öğrenilebildiğini göstermektedir. Ayrıca derinlik-haritası çıkarımındaki başarım, PSNR değerinde 3dB lik artış olarak ölçülmüştür. WAYMO otonom sürüş verisi üzerinde performansı daha ayrıntılı gözlemleyebilmek amacıyla vidoe segmentleri içeriklerine göre, karanlık, güneşli, bulanık, kameraya bakış açısı değişik, farklı ölçekte araç içeren, örtüşen araç içeren, az sayıda araç içeren gibi yedi farklı grup için etiketlenmiştir. CANnet2s ile özellikle araçların kameraya bakış açıklarında farklılıkların çok olduğu videolarda performansın belirgin olarak iyileştiği görülmüştür. Tez kapsamında ilgilenilen bir diğer yaklaşım, topluluk analizinde performansın transfer öğrenme ile arttırılmasıdır. Transfer öğrenme yapılan ve sıfırdan eğitimlerin tümünde veri tabanları için aynı eğitim ve test setleri kullanılmıştır. Spesifik olarak, literatürde transfer öğrenmenin CSRNet için gösterilmiş olan katkısının CANnet2s ile elde edilip edilemeyeceği araştırılmıştır. Bu kapsamda TRANCOS araç veri setinde eğitilen model öneğitilmiş model olarak alınarak eğitime WAYMO verisi ile devam edilmiştir. Derin ağ TRANCOS verisinde 90 epok eğitilmiş, ön eğitimli model ile WAYMO veri setinde 35 epok tansfer öğrenme sonunda performansın WAYMO verisinde 150 epok sıfırdan eğitimde elde edilen performansa ulaşılmıştır. Transfer öğrenmenin etkisinin incelenmesi amacıyla bir diğer eğitim insan kalabalıkları içerem iki veri seti kullanılarak yapılmıştır. Öncelikle video verisi içeren FDST veri seti ile 200 epok eğitim yapılmış ardından görüntü içeren ShanghaiTech-B veri seti ile 60 epok boyunca transfer öğrenme gerçeklenmiştir. ShangaTech-B eğitim seti ile sıfırdan 450 epok eğitim sonucunda CANnet2s ile sağlanan MAE değerinin transfer öğrenme ile %30 azaltıldığı görülmüştür. Tez çalışmasında ayrıca birden fazla nesne sınıfının, otonom sürüş uygulamalarına özel olarak araç ve insan sınıfından nesnelerin, birlikte analiz edilmesi konusu üzerinde bir çalışma yapılmıştır. Bu kapsamda CANnet2s derin öğrenme ağı WAYMO veri setindeki insan ve araç içeren video segmentlerinde eğitilmiş ve test edilmiştir. Çalışmada aynı anda iki nesne sınıfını da analiz etme ve insan ya da araç nesne sınıflarını ayrı ayrı analiz etme durumları için üç ayrı eğitim modeli elde edilmiştir. Yapılan testlerde derin öğrenme ağının iki farklı nesne tipini aynı anda analiz etme performansının ayrı ayrı analizlerde elde edilenden düşük olmadığı görülmüştür. Aynı anda sınıflandırılması gereken nesne sayısının trafik lambası ve diğer nesneler eklenerek arttırılması mümkündür. Tez çalışması kapsamında insan ve araçtopluluklarının analizinde ve sayılmasında video verisi kullannan derin öğrenme ağlarının daha yüksek performans sağladığı gösterilmiştir. Video verisinin saniyede 25 ila 30 görüntü işenmesini gerektirdiği göz önüne alınırsa, gerçek zamanda çalışan bir sistem geliştirilmesi açısından bu boyutta bir verinin işlenmesi zordur. Bu nedenle tez kapsamında WAYMO verisi saniyede 5 görüntüye düşürülmüştür. Bunun yanısıra giriş verisinin çözünürlüğü de 1920x1280 piksel orijinal WAYMO video çerçevesi boyutundan 640x360 piksel e düşürülmüştür. Derin ağ mimarilerinde kullanılan çekirdek boyutlarının belirlenmesi, kalabalık analizi performansı açısından oldukça önemlidir. Tez çalışmasında kullanılan mimarilerde farklı büyüklüklerdeki nesnelerin sezilebilmesi amacıyla birden fazla çekirdek kullanılarak çok ölçekli öznitelik çıkarma gerçeklenmektedir. Kullanılacak ölçek sayısı işlemsel karmaşıklığı doğrudan etkilemenin yanısıra performansı da etkilemektedir. Tez çalışmasında bu amaçla eniyileme çalışmaları yapılmış olup bu konuda araştırmalar devam etmektedir.

Özet (Çeviri)

Understanding the location, distribution pattern, and characteristics of crowds, along with the number of objects within a specific space, constitutes a critical subject known as crowd analysis. The analysis and monitoring of people in crowds hold paramount importance, particularly in areas such as security and management, for practical applications such as urban management, city planning, and preventing catastrophes. Over the years, numerous methods have been developed and introduced to address this challenge. Earlier methods relied on detection-based solutions, where each individual had to be detected and then counted, facing challenges such as occlusion which further complicated the process of detecting individual body parts and counting each individual and high processing time. Other methods that were introduced to remedy problems related with detection-based crowd counting relied on regression-based solutions, attempting to map crowd distribution patterns to the crowd count. Regression-based methods faced problems such as occlusion and low performance in highly crowded scenarios. Both approaches could only report the total number of objects or individuals and not their locations or distribution patterns. However, with advancements in the area of deep neural networks, specifically the introduction of convolutional neural networks (CNNs), CNN-based crowd counting methods have emerged. These methods aim to find a relationship between the extracted features from the input image and the ground-truth data, depicted as a color-coded density map. This density map illustrates the distribution pattern and shape of the target objects within the scene. Ground-truth density maps are generated by convolving object center coordinates with a Gaussian kernel, effectively encoding the average object sizes and the distances between the objects. This approach allows for not only the counting of objects but also the visualization of their distribution patterns. In recent years, many density-based crowd counting networks have been developed and introduced, differing in their accuracy and network architecture. Most of these networks work with single images in the spatial domain; however, a limited number of density-based networks that operate in the temporal domain with video frames have been introduced. The network used in the current research study, named CANnet2s, is among the video-based deep neural networks using density estimation techniques. Aside from extracting features, this network estimates the flow of objects within a pair of video frames at the pixel level, within small image areas called“grids.”Displacements of objects to or from these grids are estimated, resulting in the generation of flow maps (maps of objects moving in a certain direction). This process totals in the creation of ten flow maps for ten possible directions. The density maps are then generated by combining these flow maps, and the total crowd count is estimated from these combined maps. The CANnet2s network was originally developed for people crowd counting purposes. Therefore, the initial phase of this study investigates the network's performance on people crowds by conducting experiments on different datasets such as FDST, ShanghaiTech, and JHU-Crowds++. However, motivated by recent developments and the increased usage of autonomous vehicles, the second phase of the study focuses on adapting this network to the domain of vehicle crowd counting and estimation. This phase of the study begins with experiments using the TRANCOS cars dataset, which includes traffic jam images. However, due to limitations in the quality of images and camera positions in this dataset, the comprehensive WAYMO dataset is employed. This dataset includes high-quality real-life video sequences recorded from the point of view of the vehicle driver, making it ideal for autonomous driving purposes. A subset of this dataset, comprising 140 video segments (approximately 28,000 video frames), is annotated and prepared for training and testing purposes of the network, where 25 segments are used for training and the remaining segments are employed for testing. Due to pioneering nature of this study and scarcity of related studies in the field of vehicle counting utilizing the WAYMO dataset, the still-image-based counterpart of CANnet2s, the CANnet network, is also trained and tested for comparative analysis. Throughout this research, CANnet2s consistently demonstrated superior performance. It exhibited a smaller mean absolute error (MAE) rate of 5.46 compared to CANnet, which had an MAE error of 7.74, despite being trained for fewer epochs (150 epochs compared to CANnet's 500 epochs). Additionally, CANnet2s showed a 3 dB increase in peak signal-to-noise ratio (PSNR) value compared to CANnet, which resulted in the generation of density maps with higher levels of detail and enhanced quality. In the second phase of this research, WAYMO dataset segments are meticulously labeled and categorized based on various scene characteristics and features, including weather conditions and vehicle crowds. Attribute-based network performance reports are then generated, highlighting the efficacy of CANnet2s, particularly in challenging scenarios. Once again, CANnet2s demonstrated its superiority, reaffirming its effectiveness across diverse conditions and environments. To further boost the performance of CANnet2s, transfer learning techniques are employed. A pre-trained model from the TRANCOS cars dataset served as the baseline for training the CANnet2s network with the WAYMO dataset. This approach halved the required training time, achieving the desired network performance after just 35 epochs of training. The outcome was an enhancement in network performance in terms of MAE error rate, particularly evident in one of the most challenging segments of the WAYMO dataset, depicting a blurry, highly occluded scene, where the MAE error rate decreased by 98 percent and the output density maps closely mirrored the ground-truth data. Furthermore, the study examines the impact of modifications to the CANnet2s architecture and network elements on network performance by experimenting with different kernel sizes and investigating the effect of input video frame dimensions on processing time. By using kernel modification, specifically by adjusting the kernel sizes of the pyramid pooling section of the CANNet2S architecture, the network's performance on the TRANCOS dataset improved both in terms of learning speed and error rate. This modification decreased the required training time from 90 epochs to 10 epochs while reducing the MAE error rate from 2.4 to 2.1, making CANNet2S's performance on the TRANCOS dataset the second best in the benchmark table. This study explores the feasibility of multi-object crowd estimation, with a focus on simultaneously detecting and counting both vehicles and people in video frames. This is crucial for identifying these objects as the main obstacles from the driver's viewpoint. This exploration represents the early stages of research in this area. The results of this research study show promising outcomes for the practical application of these methods in areas such as a pre-processing step in autonomous vehicles, road and urban transportation management by city authorities, and general crowd estimation purposes.

Benzer Tezler

  1. Crowd counting, localization and anomaly detection with convLSTM based CNN using synthetic images

    Evrişimli uzun-kısa süreli hafıza tabanlı evrişimsel sinir ağları ile sentetik görüntüler kullanarak kalabalık sayımı, lokalizasyonu ve anomali tespiti

    MUHAMMET FURKAN COŞKUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE AKAR

  2. Learning weights of losses on multiscale in crowd counting

    Kalabalık sayımında çoklu ölçek kayıplarının ağırlılarının öğrenilmesi

    DERYA UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  3. Küresel kent ve mekansal dönüşüm (İstanbul örneği)

    Global city and spatial transformation (the case study of İstanbul)

    SEMİHA SULTAN ERYILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    Şehircilik ve Bölge PlanlamaGebze Yüksek Teknoloji Enstitüsü

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. NİHAL ŞENLİER

  4. Birinci trimesterde subkoryonik hematomu olan gebelerin obstetrik komplikasyonlarının ve sonuçlarının değerlendirilmesi

    Evaluation of obstetric complications and results of pregnancy with subchorionic hematoma in the first tri̇mester

    FATMA ZEHRA KURNUÇ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Kadın Hastalıkları ve DoğumErzincan Binali Yıldırım Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    DOÇ. DR. ÜMİT ARSLAN NAYKI

  5. Farklı diş preparasyonlarının, metal destekli ve tam seramik kronlarda stres dağılımına etkisinin sonlu elemanlar stres analiz (SESA) yöntemi ile incelenmesi

    The effect of different tooth preparation on the stress distribution of all ceramic crown and metal-ceramic crown by using finite element stress analysis technique

    PERİHAN OYAR

    Doktora

    Türkçe

    Türkçe

    2002

    Diş HekimliğiAnkara Üniversitesi

    Protetik Diş Tedavisi Ana Bilim Dalı

    PROF.DR. MUTAHHAR ULUSOY