Geri Dön

Learning weights of losses on multiscale in crowd counting

Kalabalık sayımında çoklu ölçek kayıplarının ağırlılarının öğrenilmesi

  1. Tez No: 831014
  2. Yazar: DERYA UYSAL
  3. Danışmanlar: PROF. DR. ULUĞ BAYAZIT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 57

Özet

Günlük hayatımızda çoğumuz kalabalık ortamlarda bulunuyoruz ve bazen bulunduğumuz ortamların kalabalıklığı hakkında çoğumuz yorumda bulunabiliyoruz. Toplumun güvenliğini korumak amacıyla, alışveriş merkezi ve stadyum gibi oldukça kalabalık alanların verimli ve yürütülebilir olması açısından kalabalık analizine ihtiyaç duyulmaktadır. Yoğunluğun olduğu her alanda sinema, konser, turistik yerler ve popüler caddelerin bulunduğu yerler güvenlik, giriş-çıkış bilgileri, yıllık ziyaret edilme oranı, anlık gelen ziyaretçi sayısı gibi amaçlarına ulaşmak adına oldukça önemlidir. Bu analizler giriş aşamasında alınabilirken örneğin bilet gibi bazende görüntü üzerinden alınabilir. Bu amaçla kullanılan görüntüler genellikle sokak kameraları, güvenlik kameraları ve internetten alınan resimlerden oluşabilir. Toplanan görüntüler üzerinden başlangıçta bazı geleneksel yöntemler ile tahmin yapılırken sonrasında yapay sinir ağlarından yararlanılmış ve hata oranı az olan sonuçların elde edilmesi amaçlanmıştır. Topluma açık alanların yoğunluğu konusunda fikir sahibi olmak bazı beklenmedik durumlarda da oldukça önemli olabilir. Örneğin COVID-19 durumunda kişiler arası mesafeyi ölçmek ne kadar önemliyse bir yerde bulunan kişilerin sayısı da oldukça önemliydi. Toplu taşıma, kamu binaları vb yerlere belirli sayıda kişiler alınıyordu. Bu sadece bir örnek olmakla birlikte kalabalık analizinin aslında hem sosyal yaşantımızda önemini hemde sonrasında yapılacak olan çalışmaların önemini göstermektedir. Özellikle son zamanlarda yapay sinir ağları ile yapılan çalışmaların başarısı artmakta ve bu nedenden dolayı bir çok alanda bu mimariler ile geliştirmeler yapılmaktadır. Kalabalık analizinin yanı sıra, ses tanıma, arıza analizi, tahminleme sistemleri, tıp, haberleşme, trafik ve kontrol sistemleri gibi alanlarda da oldukça fazla çalışma bulunmaktadır. Yapay sinir ağlarını kullanırken en önemli konulardan biri elimizde bulunan verinin düzgünlüğü ve kalitesidir. Bir çok çalışmaya başlamadan önce ilk olarak verilerin toplanmasıyla başlanır ve bu verilerin etiketlenmesiyle devam eder. Eğer elimizde bir veri varsa da bu veriseti üzerinde bazı ön işlemeler yapmak gerekebilir. Örneğin karanlık resimleri aydınlatma, ya da az olan veriyi çoğaltma gibi. Bazende elimizdeki veriyle bir takım sorunları aşmak oldukça zordur. Örneğin kalabalık analizini yaparken ilk olarak kullanılan yöntemlerden biri yüz tanıma veya vücut tanıma yöntemleriydi. Bu yöntemler kullanıldığında çok kalabalık bir ortamda kişi arkası dönük veya kişi çok uzakta olabileceğinden istenilen başarım elde edilemeyebiliniyordu. Bu gibi etmenler nedeniyle sonrasında yapılan çalışmalar kalabalık haritası çıkarma veya noktalar üzerinden tahminleme yapmaya yönelmiştir. Fakat burada da hala çözülmeyen sorunlar mevcut olabilmektedir. Bir kişi direğin arkasındaysa ya da başka bir kişinin arkasındaysa sorunlar oluşmaktadır. Görsel veriler üzerinden kalabalık analizi yapmakla ilgili yapılan bazı çalışmalar mevcuttur. Bu çalışmalar genellikle sokak kamerasından alınan görüntüler üzerinde ya da internetten toplanan veriler üzerinde gerçekleştirilmişlerdir. Bazı çalışmalar eş zamanlı çalışmayı hedeflese de literatürdeki çalışmaların çoğu belirli resim veri setleri üzerinden gerçek değere en yakın sonucu elde etmeyi hedeflemişlerdir. Bu amaç doğrultusunda yapılan çalışmalar görüntüdeki kişilere karşılık düşen noktaları oluşturarak bir veri ön hazırlığı yapmışlardır. Bu adımda çalışmaların bir kısmı kalabalık haritası oluştururken bir kısmıda görüntüdeki kişilere ait koordinatları kullanmıştır. Bu çalışmada da literatürde yapılan çalışmalar gibi hata oranını azaltmak amaçlanmış ve ona yönelik yöntemler denenmiştir. Aynı zamanda literatürdeki çalışmalarla kıyaslama yapabilmek için sokak kamerasından alınan görüntüler ve internetten toplanan görüntüleri içeren ortak bir veri seti kullanılmıştır. Kullanılan bu veri seti üzerinde yapılmış olan çalışmalara odaklanıp model mimarilerinde değişiklik yapılmıştır. Farklı olan çalışmaları birleştirerek daha başarılı sonuçlar elde edilmek istenmiştir. Son yıllarda bu alanda Konvolüsyonel Sinir Ağları (CNN) kullanılıp ve oldukça başarılı sonuçlar elde edildiğinden bu çalışmada da CNN tabanlı bir mimari kullanılması hedeflenmiştir. Yeni bir yaklaşım olan Multiscale Crowd Counting and Localization yönteminden baz olarak alınmıştır. Pretrained model olan VGG-16 kullanılarak bu çalışmanın optimizasyon kısmında iyileştirmeler yapılmıştır. Mimaride kullanılan ağırlık parametrelerinin öğrenilebilir olması sağlanmıştır. Kullanılan veri seti üzerinden literatürde ön aşamada bir kalabalık haritası oluşturularak tahminleme yapılırken bu çalışmada nokta tabanlı bir yaklaşım izlenilerek kişilere ait koordinat bilgileri kullanılmış ve bu sayede çıktı olarak koordinat bilgileri elde edildiğinden kişilerin bulunduğu noktalar da saptanmıştır. Bunlara ek olarak model içerisinde boyutlar ve farklı kanalların birleştirilmesiyle ilgili bazı deneyler de yapılmıştır. Kullanılmış olan ShanghaiTech verisetinde 716 resim bulunmaktadır. Bu resimlerin 400 tanesi sokak kameralarından alınırken 316 tanesi internetten toplanmıştır. Farklı görüntü özellikleri içeren bu 2 bölüm için hata iki farklı şekilde (Mean Square Error ve Mean Absolute Error) hesaplanmıştır. Bu çalışmada kullanılan UCF_CC_50 verisetinde ise 50 adet görüntü bulunmaktadır. Bu görüntüler ise oldukça kalabalık olan siyah beyaz resimlerden oluşmaktadır. Kullanılmış olan verisetleri üzerinde büyütme işlemi uygulanarak verinin çeşitlendirilmesi sağlanmıştır. Bunun için kullanılan yöntemlerden birinde resim içerisinde boyutun yarısı olacak şekilde ve rastgele bir kesit alınmıştır. İkinci yöntemde ise alınan bu kesitin y eksenine göre simetrisi elde edilmiştir. Bu çalışmada ilk olarak mimaride değişikler yapılmak istenmiş ve çoklu ölçekli olan baz çalışmanın sadece en büyük ölçeği olan ve en fazla bilgiyi içeren kolu kullanılarak tahminleme yapılmıştır. Bu tahminleme sonucunda hata oranı yükselmiştir. İkinci olarak ise çıktı boyutunun 1/16 değil de 1/8 olarak değiştirilmesi denenmiştir. Bunun için her bir ölçeğe uyarlanan downsample katmanlarından bir adeti eksiltilmiştir. Bu sayede çıktının daha detaylı bilgi içermesi amaçlanmıştır. Fakat sonuçlarda hata oranın yükselmesinden dolayıbu yöntem uygulanmamıştır. Baz alınan çalışmada her bir ölçeğe ait ağırlık değerleri sabit ve bu değerleri belirlerken deneme yanılma yöntemi kullanıldığından burada bu ağırlık değerlerinin öğrenilebilmesi hedeflenmiştir. Bunun için daha önce farklı alanlarda kullanılan otomatik ağırlık öğrenme yöntemi dahil edilmiştir. Bu mekanizma sayesinde her bir ölçeğe ait ağırlık değerlerinin model parametreleri ile öğrenilebilir olması sağlanmış ve tahminleme aşamasındaki hata oranı düşürülmüştür. Bir çok geleneksel yönteme ve son zamanlarda yapılan CNN tabanlı çalışmalara göre daha yüksek başarım sağlanmıştır. Baz alınan çalışmaya göre ise ortalama %12 oranında bir hata azalması görülmüştür.

Özet (Çeviri)

In our daily lives, most of us are in crowded environments, and sometimes we can comment on the crowdedness of the environments we are in. In order to protect the safety of society, crowd analysis is needed to be efficient and executable in highly crowded areas such as shopping malls and stadiums. Cinemas, concerts, touristic places, and popular streets are very important in order to achieve their goals, such as security, entrance-exit information, annual visit rate, and number of instant visitors. Having an idea of the density of public spaces can also be very important in some unexpected situations. For example, in the case of COVID-19, as important as measuring interpersonal distance was, the number of people in a place was also very important. A certain number of people were admitted to public transport, public buildings, etc. Although this is just an example, it shows the importance of crowd analysis in our social lives and the importance of the studies to be done afterwards. There are some studies on performing crowd analysis on visual data. These studies generally have focused on images taken from street cameras or on data collected from the internet. Although some studies target real time, most of the studies in the literature aim to obtain the closest result to the real value of certain image data sets. In this study, like the studies in the literature, it was aimed to reduce the error rate, and proposed methods for it were tried. At the same time, a common data set, including images taken from street cameras and images collected from the internet, was used to make comparisons with studies in the literature. Focusing on the studies using this data set, changes were made in the model architectures. It was desired to achieve more successful results by combining different studies. Since Convolutional Neural Networks (CNN) have been used in this field in recent years and very successful results have been obtained, it was aimed to use a CNN-based architecture in this study. Improvements were made in the optimization part of this study by using the Multiscale Crowd Counting and Localization method, which is a recent approach. It has been shown that the weight parameters used in the architecture can be learned. While the data set used in the literature makes predictions by making a crowd map at the preliminary stage, a point-based approach is followed in this study, and the coordinate information of the people is used. Since the coordinate information is obtained as output, it is determined at the points where the people are. Additionally, some experiments were carried out on dimensions and combining different channels in the model. When the improvements made and the studies in the literature were compared, it was determined that the crowd analysis (number of people) errors on the images were reduced. In addition to the ShanghaiTech data set used in the reference study (Multiscale Crowd Counting and Localization ), the UCF_CC_50 data set was also used and results on both were compared with other studies in the literature. It was observed that the error rate decreased by 12% compared to the reference study.

Benzer Tezler

  1. Hipotiroidi oluşturulan adölesan sıçanlarda yüksek şiddetli aralıklı egzersizin kognitif fonksiyonlar üzerine etkisinin değerlendirilmesi

    Evaluation of the effects of HIIT on cognitive functions in adolescent hypothyroid rats

    ERHAN CANER AKKAYA

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    FizyolojiDokuz Eylül Üniversitesi

    Fizyoloji Ana Bilim Dalı

    PROF. DR. BERKANT MUAMMER KAYATEKİN

    PROF. DR. AYFER DAYI

  2. Application of potential disease detection techniques in greenhouses and their impact on sustainability

    Seralarda potansiyel hastalık tespit tekniklerinin uygulanması ve sürdürülebilirlik üzerindeki etkileri

    AKO KAKARASH OMER

    Doktora

    İngilizce

    İngilizce

    2024

    ZiraatOndokuz Mayıs Üniversitesi

    Tarım Makineleri ve Teknolojileri Mühendisliği Ana Bilim Dalı

    PROF. DR. YEŞİM BENAL ÖZTEKİN

  3. Yenilenebilir enerji planlaması için bütünleşik çok amaçlı bir karar modeli önerisi

    An integrated multi-objective decision model for renewable energy planning

    BEYZANUR ÇAYIR ERVURAL

    Doktora

    Türkçe

    Türkçe

    2018

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. RAMAZAN EVREN

  4. Görsel algıya ilişkin bir korteks modeli

    A cortex model of visual cognition

    MEHMET ALİ ANIL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. NESLİHAN SERAP ŞENGÖR

  5. A real-time fall detection of elderly people in indoor environments

    Kapalı ortamlarda bulunan yaşlılar için gerçek zamanlı düşme algılama sistemi

    MUSTAFA HUSSEIN RAFEEQ RAFEEQ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiGaziantep Üniversitesi

    Elektronik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN ÖZBAY