3-boyutlu artık ağ eylem tanıma modeli ile süpermarket video görüntülerinde hırsızlık tespiti
Theft detection in supermarket videos with 3-dimensional action recognition residual network model
- Tez No: 732638
- Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA ÖZDEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Bursa Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik Elektronik Bilim Dalı
- Sayfa Sayısı: 68
Özet
Son zamanlarda, süpermarketlerde hırsızlık tespiti için yapay zekâ modellerine ilgi artmaktadır. Süpermarket hırsızlıkları, süpermarketleri finansal açıdan marketleri zarara sokmaktadır. Bu zararların önüne geçmek için insan hırsızlık eylemine yönelik modeller geliştirilmektedir. Gündelik olarak gerçekleştirilen insan eylemlerini sınıflandırmak için 2-B CNN ve 3-B CNN eylem tanıma modelleri kullanılmaktadır. İnsan eylemi gerçekleştirilirken hem görsel hem de hareket bilgisi içermektedir. Görsel ve hareket bilgisi, uzam-zamansal bilgiyi ifade etmektedir. Eylem tanıma modelleri ile uzam-zamansal eylem bilgisi çıkarılmaktadır. Bu tez çalışmasında, hırsızlık ve hırsızlık olmayan eylem video veri seti oluşturulmuştur. Oluşturulan hırsızlık ve hırsızlık olmayan eylem veri seti videoları 3'er eylemden oluşmaktadır. Hırsızlık eylemleri: eşyaları; cebe koymak, çantaya koymak ve el çantasına koymak şeklindedir. Hırsızlık olmayan eylemler: süpermarkette; yürümek, sabit durmak ve raftan eşya almak şeklindedir. Eğitim veri seti Youtube'den toplanmış ve test veri seti ise bir süpermarket güvenlik kamerasından toplanmıştır. Eğitim veri seti, 161 hırsızlık olmayan eylem, 139 hırsızlık eylemi olarak 300 videodan oluşmaktadır. Test veri seti, 140 hırsızlık olmayan eylem, 130 hırsızlık eylemi olarak 270 videodan oluşmaktadır. 3-B CNN modellerini sıfırdan optimize etmek için büyük ölçekli veri setleri gerekmekte aksi halde ağın doğruluk oranı hızla düşmektedir. Oluşturulan hırsızlık eğitim veri seti küçük ölçekli olduğu için büyük ölçekli Kinetics-700 veri setinde önceden eğitilmiş olan 18 katmanlı 3-B Artık Ağ modeli transfer öğrenme ile kullanılmıştır. Temel alınan 3-B Artık Ağ modelinin FC katmanı dışındaki ağırlıkları kullanılmış ve model sadece FC katmanı ağırlıkları güncellenerek eğitilmiştir. Hırsızlık eylemini daha detaylı incelemek ve sınıflandırmak için modele ait 12 versiyon oluşturulmuştur. Oluşturulan versiyonlar, parametre olarak birbirinden farklıdır. Versiyonlar, girdi görüntüsü boyutu, çerçeve uzunluğu ve parti büyüklüğü olarak farklılık göstermektedir. Versiyonlar; RGB girdi görüntüsü almakta ve 200 adımda eğitilmiştir. Elde edilen eğitim ve test sonuçları doğruluk oranları bakımından karşılaştırılmıştır.Eğitim ve test sonuçları neticesinde Versiyon 1 sırasıyla, %88,0 ve %77,0 doğruluk oranları ile en iyi sonuca sahip modeldir. Versiyon 1: 2242243 RGB girdi görüntüsü, 32 çerçeve uzunluğu ve 12 parti büyüklüğüne sahiptir. Süpermarkette hırsızlık tespiti yapabilen 18 katmanlı 3-B Artık Ağ modeli geliştirilmiştir.
Özet (Çeviri)
Recently, there has been increasing interest in artificial intelligence models for theft detection in supermarkets. Supermarket thefts are making to lose money for supermarkets financially. In order to prevent these losses, models for human theft action are being developed. 2-D CNN and 3-D CNN action recognition models are used to classify daily human actions. It contains both visual and movement information while performing human action. Visual and motion information refers to spatio-temporal information. Spatiotemporal action information is extracted with action recognition models. In this thesis study, theft and non-theft action video dataset are generated. The generated theft and non-theft action dataset videos consist of 3 actions each. Acts of theft: belongings to; put in a pocket, put in a bag, and put in a handbag. Non-theft acts: in the supermarket; walking, standing still, and picking up items from the shelf. The training dataset was collected from Youtube and the test dataset was collected from a supermarket security camera. The training dataset consists of 300 videos as 161 non-theft actions and 139 theft actions. The test dataset consists of 270 videos as 140 non-theft actions and 130 theft actions. Optimizing 3-D CNN models from scratch requires large-scale datasets, otherwise, the accuracy of the network drops rapidly. Since the generated theft training dataset is small-scale, the 18-layer 3-D Residual Network model, which was pre-trained in the large-scale Kinetics-700 dataset, was used with transfer learning. The weights of the underlying 3-D Residual Network model except the FC layer are used and the model is trained by updating only the FC layer weights. In order to examine and classify the act of theft in more detail, a deep model is trained 12 times with different parameters. The versions created are different from each other in terms of parameters. Versions differ in input image size, frame length, and batch size. Versions; takes an RGB input image and is trained in 200 epochs. Obtained training and test results were compared in terms of accuracy. As a result of the training and test results, Version 1 is the model with the best results with 88.0% and 77.0% accuracy rates, respectively. Version 1 has, 2242243 RGB input image, 32 frame length and batch size of 12. As a result, an 18-layer 3-D Residual Network model has been developed, capable of detecting theft in the supermarket. A 18 layer 3-D Residual Network model has been developed that can successfully classify the theft action in supermarket.
Benzer Tezler
- Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models
Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma
NEŞE GÜNEŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Human action recognition for various input characteristics using 3 dimensional residual networks
3 boyutlu artık ağlar kullanarak çeşitli karakter özelliklerine sahip girdiler için insan eylem tanıma
GÜLİN TÜFEKCİ
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. İLKAY ULUSOY
- Cable-net facades with novel glass nodes: development, design, and testing
Özgün cam düğüm noktalarına sahip kablo-ağ cephelerin geliştirilmesi, tasarımı ve testi
ESRA YAĞDIR ÇELİKER
Yüksek Lisans
İngilizce
2018
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. OĞUZ CEM ÇELİK
- Tıp eğitiminde artırılmış gerçeklik
Augmented reality in medical education
İBRAHİM ÖZÇELİK
Yüksek Lisans
Türkçe
2023
Eğitim ve ÖğretimGazi ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
PROF. DR. MEHMET ALİ ERGÜN
- Derin öğrenme tabanlı görüntü gürültü giderme için yoğun bağlantı kullanan yeni yaklaşımlar
Densely connected structures in deep learning based image denoising
VEDAT ACAR
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU