Unconstrained face recognition under mismatched conditions
Eşleşmeyen koşullar altında yüz tanıma
- Tez No: 540219
- Danışmanlar: DOÇ. DR. HAZIM KEMAL EKENEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 81
Özet
Yaygın olarak kullanılan gözetim kameraları dünyayı daha iyi ve güvenli bir yer haline getirmek için kullanılabilmektedir. Gözetim kamera verileri birçok uygulama tarafından kullanılmaktadır; hız kontrol kameraları trafik kurallarındaki ihlalleri tespit etmek için yollara monte edilmişken, binalarda her yerde bulunan güvenlik kameraları ise anormallikleri tespit etmek için kullanılmaktadır. Ayrıca, insanların sosyal etkinliklerde faaliyetlerini analiz ve tahmin etmek için araştırmacılarda büyük bir ilgi uyandırmaktadır. Gözetim kameralarının yaygın olarak kullanımı, kişilerin kaydedilen veya anlık görüntüleri izleme görevini çok zahmetli hale getirmiştir. Yetkililerin videoları verimli bir şekilde izlemeleri ve buna göre hareket etmeleri neredeyse imkansızdır. Bu nedenle, bu tezde otomatik gözetim teknikleri önerilmiştir. Yüz tanıma, bilgisayarla görü alanında büyük ölçüde literatürde yer alan konulardan birisidir. Yüz imgelerinin birebir eşlenmesi (1:1) yüz doğrulama (face verification), bir yüz imgesi ile birden çok (1:N) yüz imgesinin karşılaştırılması ise yüz kimlik tanıması (face identification) olarak tanımlanmaktadır. Hukuk alanında, güvenlik soruşturmalarında, gözetleme ve güvenlik kapılarında yüz tanıma kullanılmaktadır. Yüz tanımadaki genel yaklaşım, yüz imgelerinden öznitelikler çıkarmak ve bu öznitelikleri benzerlik ölçümü ile karşılaştırmaktır. Geleneksel olarak elle öznitelikler çıkarılırken, derin öğrenme algoritmalarındaki son gelişmeler ve büyük ölçekli yüz veri kümeleri sayesinde derin öğrenme temelli öznitelik öğrenme yöntemleri tercih edilmektedir. Poz, aydınlanma, yüz ifadesi ve yüzün başka bir nesne ile kapanması gibi nedenlerlen dolayı yüz tanıma zor bir problem olmasına rağmen, imgeler eşleşen koşullarda toplandığı durumlarda problemin çözüldüğü düşünülmektedir. Eşleşen koşullarda, yüz görüntüleri genel olarak aynı alandan gelmektedir ve göreceli olarak yüksek çözünürlükte olmaktadır; eşleşmeyen koşullarda ise yüz görüntüleri farklı alanlardan gelmektedir. Örneğin, gözetleme senaryolarında, galeri kümesinde yüksek çözünürlüklü yüz görüntüleri varken, prob kümesinde düşük çözünürlüğe sahip yüz imgeleri bulunmaktadır. Bu tezde, eşleşmeyen koşullar altında yüz tanımaya ve yüz özniteliklerini öğrenmek ve çıkarmak için derin öğrenme modellerinden yararlanmaya odaklanılmıştır. Yüzler arasındaki benzerlik ölçümü derin yüz öznitelikleri kullanılarak yapılmaktadır. Bu amaçla, Rank-1, Rank-5 yüz tanıma doğruluğunu ve Kümülatif Eşleşme Skoru eğrisinin altındaki alanı rapor etmek için öğrenilen özniteliklerin arasındaki uzaklık korelasyon mesafesi ile en yakın komşu sınıflandırıcısı kullanılmıştır. Öznitellikleri elde etmek için, VGGFace2 veri kümesi üzerinde önceden eğitilmiş 50 katmanlı SENet ve ResNet modelleri, MS-Celeb-1M veri kümesi üzerinde eğitilmiş 50 katmanlı SENet ve ResNet modelleri ve sonradan VGGFace2 üzerinde ince ayar yapılmış modelleri kullanılmıştır. Tanımlanan dört modelden çıkardığımız öznitelik vektörleri 2048 boyutludur. İlaveten, MS-Celeb-1M veri kümesi üzerinde eğitilmiş 50 katmanlı ve 100 katmanlı geliştirilmiş ResNet modelleri ve aynı modellerin VGGFace2 üzerinde ince ayar yapılmış versiyonları kullanılmıştır. Geliştirilmiş ResNet modellerinden elde edilen öznitelikler 512 boyutludur. Anlatılan 8 derin öğrenme modelleri kullanılarak galeri ve prob kümesinden her yüz için öznitelik vektörleri çıkarılmıştır. Derin öğrenme modelleri kullanılarak öğrenilen özniteliklerin ayırt edici özelliklerini karşılaştırmak amacıyla, derin yüz özniteliklerinin yüz tanımadaki performans ölçümü ICB-RW ve SCFace veri kümeleri üzerinde değerlendirilmiştir. Yüz özniteliklerini öğrenmek için kullandığımız derin öğrenme modellerinin yüz tanımadaki başarımını ölçmek için sırasıyla her bir model ile üç deney yapılmıştır. Birinci deneyde, MTCNN modelini kullanarak, veri kümelerindeki imgelerde yüz tespiti yapılmış ve modelin verdiği yüz tespit çerçevesi koordinatları kullanılarak kişilerin yüz bölgeleri kesilmiş ve bu kesilmiş yüz imgeleri daha sonra öznitelik çıkartmak için modellere girdi olarak verilmiştir. İkinci deneyde, MTCNN modelinin bulduğu çerçevelerden daha geniş çerçeveler kullanılarak yüzler kesilmiştir ve yüz imgeleri modellere girdi olarak verilmiştir. Kullanılan geniş çerçevelerin referans çerçeveye göre ölçek faktörleri 1.1, 1.2, 1.25, 1.30, 1.35, 1.40 şeklinde belirlenmiştir ve en yüksek başarılar SCFace için referans çerçevenin 1.35, ve ICB-RW için referans çerçevenin 1.2 ölçekte olduğu durumlarda elde edilmiştir. Üçüncü deneyde, yüz çerçevesi olarak her veri kümesi için en yüksek başarımı veren çerçeveler seçilmiştir. Öncelikle, öznitelik çıkarma işleminden önce, galeri kümesindeki yüksek çözünürlüklü yüz imgeleri farklı boyutlara düşürülüp tekrar modellerin girdi boyutuna getirilerek, düşük çözünürlükte imgeler elde edilmeye çalışılmıştır. Çözünürlükleri düşürmek için kullanılan boyutlar 24x24, 32x32, 40x40, 48x48, 64x64 şeklinde seçilmiştir ve daha sonra imgeler, ResNet ve SENet modelleri için 224x224 boyutuna, geliştirilmiş ResNet modelleri için ise 112x112 boyutuna getirilmiştir. Bu deney sonucu elde edilen en yüksek sonuçlar SCFace veri kümesi için 40x40, ve ICB-RW veri kümesi için ise 64x64 boyutları kullanılarak elde edilmiştir. Bu tezde kullanılan VGGFace2 veri kümesi, farklı yaş gruplarından 9131 deneğe ait çeşitli pozlarda çekilmiş 3.31 milyon yüz imgesinden oluşmaktadır. Kullanılan ikinci veri kümesi olan ICB-RW, 90 denekten oluşmaktadır ve farklı pozlar, aydınlatma durumları, ifadeler, engelleri(gözlük, saç gibi.) barındıran imgeler içermektedir. Bir diğer veri kümesi olan SCFace ise 130 denekten oluşmaktadır. SCFace ve ICB-RW veri kümelerinin galeri kısımları için yüksek kaliteli ön yüz imgeleri kullanılmıştır. ICB-RW veri kümesinin test kısmı farklı poz, aydınlatma ve engel şartlarından ötürü tanıma açısından zorlu bir kümedir. SCFace test setinde ise yüz tanımayı zorlaştıran en büyük problem çok düşük çözünürlüklü imgeler içermesidir. SCFace veri kümesi test seti üç farklı mesafeden çekilmiş imgelerden oluşmaktadır.“Mesafe 1”(4.20 metre),“Mesafe 2”(2.60 metre) ve“Mesafe 3”(1.0 metre) kategorilerinden oluşan test kümesi imgeleri, 5 farklı gözetim kamerasından toplanmıştır. ICB-RW üzerinde elde edilen sonuçlar, önceki çalışmaların başarılımlarını büyük bir farkla geride bırakmıştır. Bu veri kümesi üzerindeki en iyi sonuçlar dört modelden çıkarılan öznitelikleri birleştirerek elde edilmiştir. Bütünleşik modelimizde, VGGFace2 üzerinde eğitilmiş 50 katmanlı ResNet, SENet, ve aynı modellerin önce MS-Celeb-1M veri kümesi üzerinde eğitilip daha sonra VGGFace2 üzerinde ince ayarı yapılmış modelleri bulunmaktadır. Sonuçlar ilk tahminde tespit için 91.78%, ilk 5 tahminde tespit için 98.00% ve CMC için 0.997 şeklindedir. Ayrıca, SCFace veri kümesi üzerinde de tek bir derin evrişimsel sinir ağı modeli kullanılarak, literatürde rapor edilmiş olan en iyi sonuçlar geçilmiştir. Bu veri kümesinde en yüksek yüz tanıma başarımı,“Mesafe 1”için önceden eğitilmiş Geliştirilmiş ResNet-100 modelini VGGFace2 veri kümesi üzerinde ince ayar yapılarak elde edilmiştir. Galeri imgelerinin çözünürlüklerini azaltmak ve daha geniş çerçeve ile yüz imgesi kırpma işlemi yapmak başarımların artmasına önemli katkı sağlamıştır. Elde edilen sonuçlar, önceki çalışmalarla karşılaştırmak için, SCFace veri kümesinde 20 farklı kez rastgele seçilmiş 80 denek üzerinde yüz tanıma yapılmıştır ve elde edilen sonuçların ortalaması ve standard sapması rapor edilmiştir. SCFace veri kümesi için en iyi elde edilen sonuçlar“Mesafe 1”için 76.94 +- 1.98,“Mesafe 2”için 98.41 +- 0.92, ve“Mesafe 3”için 100 +- 0.00' ilk tahminde tespit yüz tanıma başarımıdır.
Özet (Çeviri)
Surveillance cameras are very commonplace, and thus can be utilized to make the world a better, safer place. There are many applications which use massive surveillance data to extract information. The speed cameras are mounted on the roads to detect violations in the traffic rules, as well as the security cameras, which are ubiquitous in buildings to detect anomalies. In addition, there is a great interest to analyze and estimate the people's activities in social events. Extensive usage of surveillance cameras has made the monitoring task laborious, such that it is almost impossible for a person to monitor videos efficiently and act accordingly. Therefore, automatic surveillance techniques have been proposed. Face recognition, to a great degree, has been addressed in the literature of computer vision. Face recognition is the problem of matching 1:1 face images (one-to-one), face verification, or 1:N face images (one-to-many), face identification. It has use cases in law enforcement, watchlist, security gates and etc. The usual approach in face recognition is to find the matches in the gallery faces with the probe faces by comparing the distance of the face embedding using a similarity measurement. Conventionally, the extracted features that were used for the comparison were hand engineered, however, due to the rapid progress in the deep learning field, e.g. abundance of the large-scale face database and GPUs, nowadays, deep learning based feature learning methods are preferred. Although, face recognition is a challenging task, as a result of variation in pose, illumination, expression, and occlusion, it is considered to be solved under matched conditions. In matched conditions, face images are literally coming from the same source with relatively high resolution, e.g. faces collected from the Internet. In the mismatched conditions, the face images are coming from the different sources, e.g. surveillance scenarios, where we have the high resolution face images for train set, and the low resolution in the test set. In this thesis, we focused on the face recognition under mismatched conditions and leveraged deep learning models to learn and extract deep face representations. Afterwards, deep face representations are used to compare the faces using a similarity measurement. For this purpose, we used correlation distance between learned features and nearest neighbor classifier to report Rank-1 Identification Rate. In order to extract the features, we have employed 50 and 100 layers residual neural network models trained on VGGFace2 and MS-Celeb-1M databases. We extracted face embedding from the last layer of these networks for each faces in the gallery and the probe set. Furthermore, we experimented with the different amount of information included in the face crops in which we extended the detected bounding boxes which resulted in significant performance boost. Additionally, down-sampling the gallery faces before feature extraction increased the Rank-1 identification rate. For evaluating the performance of the deep learning models at learning discriminative features, we examined the proposed method on ICB-RW and SCFace databases. Our models are trained on VGGFace2 database which is composed of 3.31 million faces of 9131 subjects collected from the celebrity images in different poses and ages and MS-Celeb-1M database which has 10 million images of 100,000 subjects, collected from the celebrity images from the web. The experimental results demonstrate the advantage of using large-scale face database to train deep Convolutional Neural Networks in learning robust face embedding. The experimental results show that quality and variation of the training database is more important than quantity of the database to learn general feature representations. In other words, although, MS-Celeb-1M has 10 times more identity and 3 times more images than VGGFace2, features learned by models trained on VGGFace2 database have better generalization on faces with very low resolution which is a challenging problem in the databases coming from surveillance cameras. Our results on ICB-RW database significantly surpassed the results of previous works, and the experiments on SCFace database achieved state-of-the-art results for distance 3, distance 2, and distance 1 subsets of the probe set. The state-of-the-art results on SCFace benchmark are achieved with an improved version of ResNet-100 trained on MS-Celeb-1M and fine-tuned on VGGFae2 database, which are 76.94% +- 1.98, 98.41% +- 0.92, and 100% +- 0.00 for distance 1, 2, 3, respectively. An ensemble of four model achieved 91.78%, 98.00%, 0.997, Rank-1, Rank-5 IR and area under the curve of cumulative match curve respectively.
Benzer Tezler
- Deep convolutional neural network based unconstrained ear recognition
Derin evrişimsel sinir ağı tabanlı kısıtsız kulak tanıma
FEVZİYE İREM EYİOKUR
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL
- Yerel zernike momentleri ve metrik öğrenme yöntemleriyle yüz çifti eşleme
Face pair matching with local zernike moments and metric learning methods
ŞEREF EMRE KAHRAMAN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUHİTTİN GÖKMEN
- Face detection and recognition system using principal component analysis
Temel bileşen analizi kullanarak yüz algılama ve tanınma sistemi
SHERWAN ABDULSATAR ABDULLAH ABDULLAH
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURHAN ERGEN
- Face recognition with local Walsh transform
Yerel Walsh dönüşümü ile yüz tanıma
MERYEM UZUN PER
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUHİTTİN GÖKMEN
- Impact of stylization on deep face recognition networks using digital images
Dijital görüntüler kullanılarak derin yüz tanıma ağları üzerinde stilizasyonun etkisi
MOHAMMED BASIM MOHAMMED MOHAMMED
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKUT ARICAN