Geri Dön

Cross-dataset person re-identification

Çapraz veri küme kişiyi yeniden tanıma

  1. Tez No: 517625
  2. Yazar: ANIL GENÇ
  3. Danışmanlar: DOÇ. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Son zamanlarda, gözetim sistemleri dünya çapında yaygınlaşmıştır. Düşük maliyetli kamera sistemlerinin çoğalması nedeniyle çoğu sistem bu sistemlerin yardımıyla izlenmeye başlamıştır. İnsanların elde ettikleri video kayıtlarını bütün olarak izleyebilmelerinin mümkün olmaması nedeniyle, bu sistemlerin kullanımı sınırlı kalmıştır. Bu sınırlama, insan gözlemciye yardımcı olmak için otomatik sistemler oluşturmanın gerekliliğini beraberinde getirir. Kişiyi yeniden tanıma, bu otomatik sistemlerin en popüler kullanım alanlarından biridir. Kişiyi yeniden tanıma, bir gözetim sisteminde başka bir kamera tarafından daha önce görülmüşse, bir bireyi yeniden tanımamayı amaçlamaktadır. Kişiyi yeniden tanıma veri kümeleri genellikle çok düşük çözünürlüklü görüntülerden oluştuğundan, çoğu önerilen çalışmalarda bireylerin fiziksel görünüşlerini kullanmış ve biyometrik detaylarını göz ardı etmişlerdir. Bununla birlikte, kameralar arasındaki aydınlatma, poz ve açı farklılıklarından dolayı bireylerin fiziksel görünüşünde bir çok değişiklik de olmaktadır. Bu, aynı kişinin iki farklı görüntüsünün birbirinden çok farklı görünmesine yol açabilir. Bu sorunları ortadan kaldırmak için bir çok yaklaşım önerilmiştir. Bununla birlikte, önerilen yöntemlerin çoğu, iyi bir genelleme yapmayan ve bu nedenle başka bir veri kümesinde düzgün çalışmayan aşırı öğrenmeye dayalı modeller oluşturmuştur. Sonuç olarak, gerçek dünya senaryoları ile baş edemeyen modeller geliştirilmiştir. Kişiyi yeniden tanıma alanında daha uyarlanabilir olan başka bir senaryo ise, çapraz veri küme kişiyi yeniden tanımadır. Bu senaryoda, eğitim için kullanılan veri kümeleri, test için kullanılanlardan tamamen farklıdır. Çapraz veri küme kişiyi yeniden tanıma, sadece görevle ilgili öznitelikleri hedefleyerek her veri kümesinde aynı başarı ile çalışan, göreve özgü modeller oluşturmayı amaçlamaktadır. Göreve özgü modeller genellikle kullanımdan önce hedef veri kümesinde başka bir uyarlama gerektirmez. Bu nedenle, gerçek dünya senaryolarına daha iyi uyarlar. Literatürde, çapraz veri küme içeren senaryolara hitap eden kişiyi yeniden tanıma hakkında sadece birkaç çalışma bulunmaktadır. Nitekim, bu çalışmaların bir kısmı, etiket bilgilerini kullanmadan modellerini hedef veri kümesinde bir şekilde uyarlamaktadır. Genel bir eğilim olarak, kişiyi yeniden tanıma sistemlerinin üç ana adımı vardır: Video kayıtlarından bireyleri tespit etmek, tespit edilen bireylerin en önemli özelliklerini tespit etmek, özellikleri bireylerin kimliklerini tespit etmek üzere karşılaştırmak. Video kayıtlarından bireyleri tespit etme aşaması sadece uygulama geliştirme aşaması için kullanılır. Kişiyi yeniden tanıma konusu içerisinde, araştırmacıların bireyleri tespit etme algoritmaları dikkate alınmamaktadır. Bu aşama daha önceden hazırlanmış dedektörler kullanılarak yapılmıştır. Deforme Edilebilir Parça Modelleri bunlardan en yaygın olanıdır. İkinci adım, kişiyi yeniden tanıma topluluğunun ana odak noktasıdır. Bu aşamada, önerilen yöntem bireylerin en yaygın özniteliklerinin çıkarılmasıdır. İnsan vücudu, özellikle giysi ve aksesuarların kombinasyonu ile çok karmaşık bir hale geldiğinden, veri kümesine özgü değil, göreve özgü özelliklerin çıkarılması çok zor bir süreçtir. Bu nedenle, araştırmacılar genellikle kişiyi yeniden tanıma problemi için veri setine özgü özellikleri bulmayı amaçlamaktadır. Kişinin yeniden tanımlama sistemlerinin son aşaması ise, bireylerin tespit edilen öznitelikleri arasındaki benzerlik tahminidir. Başka bir deyişle, bu adım iki kişinin görüntülerinin birbirine nasıl benzediğini belirler. Benzerlik tahminine yönelik ana karar, Öklid, Kosinüs, vb. mesafe ölçütleri ile verilir. Kişiyi yeniden tanıma problemi için genellikle Kosinüs benzerliği tercih edilir. Bu tezin amacı iki ana bölüme ayrılabilir: çapraz veri küme kişiyi yeniden tanımanın daha derin analizi ve içerik ile alan uyarlamasının etkisi. Kişiyi yeniden tanıma için çapraz-veri küme senaryosu uygulandığında farklılıkları gözlemlemek için, klasik evrişimsel sinir ağları-AlexNet, VGG16, GoogLeNet kullanılarak, CUHK03 ve Market-1501 veri kümeleri üzerinde eniyilendirilmiştir. İnce ayarlı model, çapraz veri küme senaryoları sırasında CUHK03, Market-1501 veri kümeleri üzerinde eğitilmiş ve VIPeR, PRID2011 veri kümeleri üzerinde test edilmiştir. Ayrıca, daha iyi öznitelikler elde etmek için insan vücudunun baş, gövde ve bacaklarına odaklanmayı amaçlayan parça bazlı ince ayar yaklaşımının etkileri ayrı ayrı incelenmiştir. Öznitelik çıkarma işlemi sırasında, evrişimsel sinir ağlarının farklı çıkış katmanlarının kullanımı da ayrıntılı olarak analiz edilmiştir. Bu nedenle tez ile, çapraz-veri küme kişiyi yeniden tanıma problemi için düşük başarımın temel sebebinin ne olduğunu anlamak için tüm vakaları tamamen araştırmaktadır. Ek olarak, eğitilen modellerin sınıf aktivasyon haritaları verilerek, böylece tek ve çapraz veri küme senaryoları arasındaki farklılıklar görsel olarak gösterilmiştir. Yapılan deneyler sonucunda, kaynak ve hedef veri kümeleri arasındaki içerik ve alan farklılıkları dikkate alınarak olası hatalar bulunmuştur ve bu farklılıkları azaltmak amacı ile döngü tutarlı üretken çekişmeli ağlar kullanılmıştır. Özellikle, kişiyi yeniden tanıma veri kümeleri içerisinde kişi ile alakasız olarak arka plan bilgileri içerdiğinden dolayı, evrişimsel sinir ağları istemeden bu arka plan bilgilerine göre şekillenir. İçerik ve alan uyarlaması ile bu farklılıklar kameralar ve veri kümeleri arasında azaltılarak başarımın arttırılması hedeflenmiştir. Döngü tutarlı üretken çekişmeli ağlar, farklı içeriksel bilgi taşıyan görüntüleri birbirine benzetmek için önerilmiştir. Gerçek dünya görüntülerinden sanatsal tablolar oluşturmak veya objelerin ortak özniteliklerini birbiri ile değiştirebilir. Döngü tutarlı ağların eğitimleri yapılırken mimariye iki farklı veri kümesi verilerek, bu veri kümelerin içerisindeki en yaygın özniteliklerin birbirine aktarılması sağlanır. İçerisinde iki adet üretken ve ayrıştırıcı ağ bulunur. Her üretken ve ayrıştırıcı çift diğer çiftin tam tersi işlemini yaparak, döngü tutarlı kayıp fonksiyonunun temelini oluşturur. Bu ayrıntılarından dolayı, döngü tutarlı ürekten çekişmeli ağlar kişiyi yeniden tanıma problemi için bahsedelien arka-plan ve ışıklandırma gibi sorunları ortadan kaldırmak için bu tez kapsamında kullanılmıştır. Tezin akışında ilk önce çapraz veri küme kişiyi yeniden tanıma problemine özgü eğitilmiş birçok evrişimsel sinir ağı modeli test edilmiştir. Her açıdan ele alınarak oluşturulan deneysel kurulumlar ile, ek bir aşama eklenmeden çapraz veri küme senaryolarında yüksek bir başarım elde edilemediği gözlemlenmiştir. Çapraz veri küme senaryolarını daha iyi anlamak için probleme özgü veri kümeleri sınıflandırılmıştır ve içerdikleri önyargı ortaya koyulmuştur. Bu durum herhangi bir modelin bir veri kümesinde aldığı başarım yüzdesini diğer bir veri kümesinde garantileyemeyeceğini göstermiştir. Daha sonra tek ve çapraz veri küme senaryolarında eğitilen modeller görselleştirilmiştir. Görselleştirme ile çapraz veri küme senaryolarında, eğitilen modellerin arka plana daha çok odaklandığı gözlemlenmiş ve bu durumun çözümü olarak içerik uyarlaması yöntemi geliştirilmiştir. İçerik uyarlaması döngü tutarlı ağlar ile farklı kameralar arasında oluşan farklı arka plan bilgilerini birbirine yakınlaştırarak başarım yüzdesini arttırmıştır. Bu aşamadan sonra kameralar arası içerik uyarlamanın birçok veri kümesine uyarlanamadığı anlaşılmıştır ve burada uygulanan uyarlamanın direk veri kümeleri arasında yapılması hedeflenmiştir. Kaynak ve hedef veri kümeleri arasında yapılan doğrudan alan uyarlaması sonucunda PRID2011 veri kümesi üzerinde literatürdeki en yüksek başarım elde edilmiştir. Son olarak, veri kümeleri arasında alan uyarlaması işlemi yapılırken, düşük seviye imge özniteliklerin kaybedildiği farkedilmiş ve bu durumun önüne geçmek için döngü tutarlı üretken çekişmeli ağların ana mimarisi, öznitelik koruyucu bir kayıp fonksiyonu ile geliştirilerek, çok daha yüksek bir başarım elde edilmiştir.

Özet (Çeviri)

Person re-identification is one of the most demanding computer vision applications aiming to give the same identity to the same individuals captured by a multi-camera setup. In the literature, the proposed approaches on person re-identification have focused on the single dataset scenario, where the training and test samples have been originated from the same dataset. Despite the success obtained on the single dataset scenarios, most of the datasets has suffered from the built-in bias problem caused by the lack of generalizability of collected samples for the dataset, and have led the generation of dataset-specific approaches rather than task-specific. Due to the impracticality of collecting training examples for each camera setup in the real-world, the existing methodologies have not been sufficient to build an end-to-end system for person re-identification. This thesis has addressed cross-dataset person re-identification problem, aiming at developing more applicable models for real-world settings. In the thesis, first, high-performing convolutional neural network architectures-AlexNet, VGG16, GoogLeNet have been fine-tuned on CUHK03 and Market-1501 dataset for the person re-identification task. During the experiments, the effect of using different human body parts and convolutional layers have been analyzed, specifically on VIPeR and PRID2011 datasets considering the cross-dataset scenario. Then, the context and domain adaptation strategies, to get higher accuracy for the cross-dataset person re-identification problem, have been proposed by utilizing a CycleGAN. Although the dramatic effect of cross-dataset scenario has been eliminated with the context adaptation, transforming the captured images from different cameras into each other, the solution has been limited within the target dataset, and not applicable for all person re-identification datasets. Therefore, the domain adaptation strategy, having the same theoretic procedure with the context adaptation, has been suggested to the cross-dataset person re-identification. The domain adaptation has directly applied on the datasets rather than on the cameras. According to the quantitative results, the thesis approach has been achieved the top accuracy among all other state-of-the-art approaches for the cross-dataset person re-identification. In addition to the quantitative results, the qualitative results have been also given with the class activation maps in order to understand the problem more deeply.

Benzer Tezler

  1. Deep convolutional neural network based representations for person re-identification

    Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

    ALPER ULU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  2. Face recognition and person re-identification for person recognition

    Kişi tanıma için yüz tanıma ve kişinin yeniden tanınması

    EMRAH BAŞARAN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

    PROF. DR. MUHİTTİN GÖKMEN

  3. Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi

    Diagnosis of diabetes disease using machine learning methods in an imbalanced diabetes dataset

    İSMAİL BUĞRA BÖLÜKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiBursa Uludağ Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. BETÜL YAĞMAHAN

  4. Hareket sensörleri aracılığıyla havaya yazmada kişi tanıma ve kişiden bağımsız harf tanıma

    Person recognition and person independent letter recognition in airwriting via motion sensors

    HÜSEYİN KUNT

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEKİ YETGİN

  5. Panoramik radyografi görüntüleri üzerinde diş çürüğünün derin öğrenme tabanlı yöntemler ile analizi ve tespiti

    Analysis and detection of dental caries on panoramic radiography images with deep learning-based methods

    DİLARA ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CANER ÖZCAN