Geri Dön

Deep convolutional neural network based representations for person re-identification

Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

  1. Tez No: 444255
  2. Yazar: ALPER ULU
  3. Danışmanlar: DOÇ. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Günümüzde video güvenlik sistemleri kamu güvenliğini sağlama konusunda büyük bir önem taşımaktadır. Hemen her yerde görebileceğimiz bu sistemlerin barındırdığı kamera sayısı oldukça yüksek sayıda olabilmektedir. Genellikle tek bir noktadan takip edilen bu sistemler, görevli kişiler tarafından gün boyunca izlenmekte ve kaydedilmektedir. Ancak gün boyu farklı kameradan gelen bu görüntülerin takip edilmesi oldukça yoğun dikkat isteyen yorucu bir iştir. Bu sebeplerle, günümüzde bu sistemler sadece görüntü kaydetmek ve dağıtmakla kalmayıp aynı zamanda çeşitli akıllı uygulamalar da barındırır hale gelmiştir. Bu uygulamaların amacı şüpheli olay ve hareketleri tespit etmek ve olabildiğince erken uyarıyı vererek, görevli kişilere yardımcı olmaktır. Yüz tanıma, kişi takibi, şüpheli paket tespiti, tehlikeli aktivitelerin belirlenmesi konusunda çalışan uygulamalar bunların başlıcalarıdır. Kişinin yeniden tanınması problemi de bu alanda kullanılan uygulamalardan bir tanesidir ve günümüzde oldukça yüksek bir öneme sahiptir. Kişiyi yeniden tanıma problemi, farklı kameralardan sağlanan görüntülerin, aynı bireye ait olup olmadığının belirlenmesi olarak tanımlanabilir. Bu problem, bilgisayarla görü alanındaki zorlu araştırma konularından birisidir. Işıklandırma koşulları, farklı kamera açıları, poz değişimleri, arka plan değişimleri ve kameraların düşük çözünürlükte olması gibi çeşitli dış faktörler, problemi zorlaştırmaktadırlar. Ayrıca problemi oluşturabilecek çok farklı senaryo bulunmaktadır. Örneğin; kişilere ait birer resmin veya video kaydının bulunması, kamera açılarının kesişmesi veya birbirinden bağımsız ortamlardan elde edilen görüntüler bunlardan bazılarıdır. Kişiyi yeniden tanıma problemi hala çözümlere açık bir problemdir. Şu ana kadar kesin bir çözümünün elde edilememesi nedeni ile bu problem üzerindeki çalışmalar artarak devam etmektedir. Özellikle etiketli veri miktarındaki artış ve GPU tabanlı teknolojilerdeki gelişmelerle beraber derin öğrenme tabanlı çözümler, bilgisayarla görü ve makine öğrenmesi problemlerinde büyük başarılar elde etmektedir. Belirli bir süre eğitim aşamasına ihtiyaç duyan derin öğrenme tabanlı sistemlerde başarım, eğitim kümesinin büyüklüğü ve kullanılan evrişimsel sinir ağının derinliği ile doğru orantılıdır. Kişiyi yeniden tanıma problemi için kullanılan veri kümelerinin büyümesi, derin öğrenme tabanlı çözümlerin klasik öznitelik çıkarımı tabanlı sistemleri geride bırakmasını sağlamıştır. Eğitim kümesinin yeterli düzeyde olmadığı problemlerde transfer öğrenme yaklaşımı, büyük kümelerle eğitimi sağlanmış sinir ağlarından elde edilen bilgi birikiminin ihtiyaç duyulan problemlere aktarılmasına olanak tanımaktadır. Bu çalışmada, kişiyi yeniden tanıma problemi için derin öğrenme ve metrik öğrenme tabanlı bir çözüm önerilmiştir. Bunun için şu anda bilinen en büyük kişiyi yeniden tanıma eğitim kümeleri kullanılmıştır. Bu eğitim kümeleri oldukça büyük olmasına rağmen, bir evrişimsel sinir ağını sıfır ağırlıkları ile en başından itibaren eğitecek düzeyde değildir. Bu işlem için kullanılacak eğitim setlerinin büyüklüğünün en az milyon seviyesinde olması tavsiye edilmektedir. Bu nedenle bu çalışmada transfer eğitim metodu ile farklı bir alanda oldukça başarılı sonuçlar veren sinir ağlarından faydalanıldı. Görüntü tanıma probleminde oldukça başarılı sonuçlar elde eden bu ağlar kişiyi yeniden tanıma problemine özgü eğitim setleri ile ince ayar işlemine tabi tutuldu. Böylece kendi problemlerinde başarılı evrişimsel sinir ağları, çeşitli ayarlamalar ile kişiyi yeniden tanıma problemine uygun hale getirildi. Evrişimsel sinir ağları birbirinden farklı görevlere sahip olan sıralı bir dizi katmandan oluşmaktadır. Evrişim katmanı da bunlardan bir tanesidir. Bu katman, görüntü üzerinde sahip olduğu büyüklük kadar iki veya üç boyutlu evrişim işlemini gerçekleştirerek, sinir ağı boyunca probleme özgü ayırt edici filtrelerin oluşmasını sağlamaktadır. Bir evrişimsel sinir ağındaki ilk evrişim katmanları, görüntü üzerinden daha genel özniteliklerin çıkarılmasını sağlamaktadır. Örnek olarak bu katmanlar; kenar bulma, köşe bulma, bölge bulma filtreleri gibi çalışmaktadırlar. Sinir ağının sonuna doğru yerleşen katmanlar ise daha çok probleme özgü ayırt edici özelliklerin elde edildiği katmanlardır. Bu sebeplerden dolayı ince ayar işlemi ile yeniden eğitilen evrişimsel sinir ağlarının ilk katmanları eğitim esnasında olabildiğince sabit tutulurken, son katmanların ağırlıkları büyük ölçüde değiştirilmiştir. Böylece son katmanlar probleme özgü özniteliklerin çıkarılmasına uygun hale getirilmiştir. Eğitim esnasında değiştirilen son katmanların, yeni ağırlık değerlerini daha hızlı öğrenmesi sağlanmıştır. Kişiyi yeniden tanıma problemi için ince ayar işlemine tabi tutulan evrişimsel sinir ağlarının, eğitim esnasında doğruluk-kayıp grafikleri incelenerek yeterli başarımın elde edildiği görüldü. Bu aşamadan sonra sinir ağları, bir insanın dış görünüşü için gerekli ayırt edici özellikleri çıkarabilecek kapasiteye ulaşmıştır. Kişi resimleri baş, gövde ve ayaklar olmak üzere üçe bölündükten sonra ince ayar işlemi yapılarak insan vücudunun her bölgesi için ayrı ayrı evrişimsel sinir ağları oluşturulmuştur. Daha sonra öznitelik çıkarımı aşamasında her vücut bölgesi için ilgili sinir ağı kullanılmıştır. Kişinin nihai temsili ise bu özniteliklerin birleştirilmesiyle elde edilmiştir. Bu çalışmada, evrişimsel sinir ağlarına uygulanan ince ayar aşamasından sonra iki farklı yöntem izlenmiş ve sonuçları ayrı ayrı raporlanmıştır. Birinci yöntem ikili metrik öğrenme yöntemleri diğeri ise öznitelikler arası doğrudan benzerlik ölçümü işlemidir. İlk olarak, ince ayar işlemi esnasında kullanılan eğitim kümelerinin, ince ayar yapıldığı sinir ağı üzerinden öznitelikleri çıkarılmıştır. Hazırlanan bu öznitelikler ikili bir şekilde positif ve negatif olmak üzere etiketlenmişlerdir. Aynı bireye ait iki resim pozitif etiketlenirken farklı kişilere ait iki resim negatif olarak etiketlenmiştir. Bu şekilde belirli bir sayıda ikili örnek hazırlandıktan sonra, eğitim kümesi metrik öğrenme algoritmalarına sokulmuştur. Metrik öğrenme yöntemlerinin amacı aynı kişiye ait öznitelikler karışılaştırıldığı zaman benzerliğin yüksek, farklı kişiye ait öznitelikler karşılaştırıldığı zaman ise benzerliğin düşük olduğu bir öznitelik uzayına geçişin yapılmasını sağlayan, dönüşüm matrisinin elde edilmesidir. Elde edilen dönüşüm matrisi kullanılarak test kümesindeki kişiler arası benzerlik ölçümü, bu uzaya geçildikten sonra yapılmaktadır. Test kümesindeki kişiler içinde sinir ağlarından öznitelikler elde edilmekte ve elde edilen dönüşüm matrisi ile benzerlik ölçümü yapılmaktadır. Uyguladığımız diğer bir yöntem ise test kümesindeki kişiler arasında doğrudan benzerlik ölçümünün yapılarak eşleşme oranlarınının elde edilmesidir. Bunun için öncelikle ince ayar yapılmış sinir ağlarından test kümesindeki kişilerin her bir vücut bölümleri için öznitelik çıkarımları yapıldı. Daha sonra bu öznitelikler birleştirilerek kişilere ait nihai gösterimler elde edildi. Sorgu ve galeri kümesindeki olarak ikiye ayrılan test kümesindeki kişilerin özniteliklerininin benzerlik ölçümü esnasında kosinüs uzaklığı kullanılmıştır. Sonuçlar herbir bölge ve nihai gösterim için ayrı ayrı 10 kez yapıldıktan sonra ortalama değerler yine ayrı ayrı raporlanmıştır. Eğitim için farklı, test için farklı kümelerin kullanıldığı bu çalışmada doğrudan uzaklık ölçümü sonuçlarında en iyi olarak Rank-1 değerinde \%32 eşleşme oranı elde edilmiştir. Bu oran belirtilen senaryoya sahip kişiyi yeniden tanıma problemi için önerilen sonuçlar arasında oldukça yüksek bir değerdedir. Elde edilen sonuçlar diğer yöntemler ile karşılaştırılmıştır.

Özet (Çeviri)

Video surveillance systems have great importance to ensure public safety. Today, these kind of systems not only capture and distribute video but also have so many smart applications. Their main task is to detect abnormal events and prevent crimes before they happen. Thanks to having these features, they can be very beneficial to help security attendants. Because, monitoring a large camera network is a very labor-intensive task. These smart applications can generate real time alarms to call security staff's attention. Person re-identification mechanism is one of these applications. It has wide usage area and very important to find suspected persons. Person re-identification problem can be defined as matching pedestrian images which are obtained from different video cameras. This is a very challenging task and it may contain many parameters. Differences in lighting conditions, background changes, occlusions, camera angles and pose variations make the problem even harder. Also, the problem scenario may contain many variations: we can have one or more images for each person, we can have very different camera combinations or we can have different datasets etc. So, person re-identification is still an open problem and there is no prominent solution to solve all different scenarios. In this thesis, we have proposed a deep learning and metric learning based method for cross dataset person re-identification problem. Firstly, cross dataset means that, we used different datasets at training and testing stages. Until now, most of the proposed methods have concentrated on single dataset setting. Secondly, deep learning based approaches have achieved great results in many computer vision problems such as digit recognition, scene understanding and face verification. Person re-identification is one of them and quite good results have been published. We used several convolutional neural network architectures in our experiments and we took advantage of their good feature extraction power. The success rate of deep learning based solutions is highly related to the size of training data that you have. Because of this reason, we used the largest datasets, which are prepared for person re-identification problem. However, these datasets are not enough to train a whole network from scratch. It is highly recommended that, your training data size should be at the level of millions to train a convolutional neural network. At this point, transfer learning procedure is a good option that should be considered. In this thesis, our main contribution is to show that some well-performing domain specific convolutional neural networks can be used in also person re-identification problem. To do this, we selected some neural networks which are good at image recognition problem and fine-tuned them with the largest person re-identification datasets. While we were doing this, we kept early layers weights as much as possible and we mostly changed the last layer weights according to our problem. Their accuracy-loss results showed that these networks have pretty good learning capabilities for our problem. In this thesis, AlexNet, VGG-16 and GoogLeNet convolutional neural networks have been used for feature extraction. We fine-tuned these neural networks for each human body part separately. After fine-tuning operation, the neural networks have become ready to extract good features from person images. At this point, we followed two different ways. First one is metric learning methods and the other one is direct similarity calculation on test set. For the metric learning, we have extracted our training set features from convolutional neural networks which are just fine-tuned. While we were doing this, we used different layers of neural networks. Next, we prepared positive and negative image pairs to be used in metric learning step. Here, positive and negative pairs mean that whether two images belongs to same person or not. Because, pairwise metric learning methods use this information and produce a projection matrix. This matrix moves the features from their current space to more discriminative feature space. In that domain, same person's images are relatively closer to the each other. At the test stage, we used this matrix with test features and project them to their new domain. Second evaluation method is direct similarity comparison of test features. After features extracted from head, body and leg parts, we fused them to obtain final person representation and calculated similarity between probe and gallery images. Here, we followed a common test procedure to evaluate our success rate. For similarity measurement, we used cosine distance metric. In that distance, low values mean that these features are closer to the each other and also they are more similar. We have achieved \%32 matching rate at Rank-1 value. This result is one of the best result for cross dataset person re-identification problem. We also compared our results with other approaches which are published for this problem. All results have been drawn as a Cummulative Matching Curves.

Benzer Tezler

  1. Face recognition and person re-identification for person recognition

    Kişi tanıma için yüz tanıma ve kişinin yeniden tanınması

    EMRAH BAŞARAN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

    PROF. DR. MUHİTTİN GÖKMEN

  2. Unconstrained face recognition under mismatched conditions

    Eşleşmeyen koşullar altında yüz tanıma

    OMID ABDOLLAHI AGHDAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  3. Human activity recognition using deep learning

    Derin öğrenme ile insan aktivitesi tanıma

    MURAT YALÇIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

  4. Invigorate cold case investigations based on human face generation using deep convolutional generative adversarial network (DCGAN)

    Derın konvolüsyonel jeneratıf adversarıal ağ (DCGAN) kullanarak ınsan yüzü kuşağına dayalı soğuk vaka araştırmalarını canlandırın

    HASAN SABAH KADHIM ALMUTTAIRI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. SEFER KURNAZ

  5. Auto-conversion from 2D drawing to 3D model with deep learning

    Derin öğrenme ile 2B çizimden 3B modele oto-dönüşüm

    GİZEM YETİŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    MimarlıkOrta Doğu Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ARZU GÖNENÇ SORGUÇ