Yerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı
A hybrid face recognition approach using local appearance and deep models
- Tez No: 894487
- Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 79
Özet
Yüz tanıma, kişinin yüz görüntüsünü kullanarak kimliğini belirleme veya doğrulama işlemidir. Yüz tanıma, biyometri alanında son zamanlarda öne çıkan konulardan biri olmuştur. Özellikle gözetleme sistemleri, bankacılık ve kamu güvenliği gibi birçok alanda yüz tanıma sistemleri yaygın olarak kullanılmaktadır. Yüz tanıma alanındaki son çalışmalar, görünür görüntüler üzerinde oldukça başarılı sonuçlar elde etmiştir. Buna karşılık, özellikle sınır güvenliği gibi askeri amaçlar için görünür görüntülemeye ek olarak kızılötesi görüntüleme tekniğine de ihtiyaç duyulmaktadır. Görünür ve kızılötesi spektrumları elektromanyetik spektrumun farklı frekans bantlarında yer almaktadır. Kızılötesi frekans bandı insan gözü tarafından görülememektedir. Ayrıca, kızılötesi görüntüleme sistemleri, ısı enerjisinin bir ortam boyunca dağılımını algılamaktadır. Bu enerji termal detektörler yardımıyla gözle görülebilir bir görüntüye dönüştürülerek termal görüntüler oluşturulmaktadır. Bu nedenle, görünür ve termal görüntüler farklı özelliklere sahiptir. Bu çalışmada, hem görünür hem de termal görüntüler üzerinde başarılı sonuçlar üretebilecek bir yüz tanıma yaklaşımı araştırılmıştır. Derin evrişimsel sinir ağları birçok görsel görevde başarılı sonuçlara ulaşmıştır. Ayrıca, yüz tanımada da yaygın olarak kullanılmıştır. Bu alanda son zamanlarda yapılan çalışmalar içerisinde farklı özelliklere sahip marj tabanlı kayıp fonksiyonları ön plana çıkmaktadır. Bu kayıp fonksiyonlarındaki ilerlemeler yüzlerin ayırt edilebilirliğini arttırmıştır. Ancak bu ağların yüz tanıma için göz bölgesine odaklandıkları tespit edilmiştir. Bu sorun özellikle üst yüz engelleme durumunda derin evrişimsel sinir ağ modellerinin performansını düşürmüştür. Diğer taraftan, yerel görünüm tabanlı yaklaşımların üst yüz engellemeye karşı daha dayanıklı olduğu birçok çalışmada gösterilmiştir. Ek olarak, dönüştürücülerin görüntülere uygulanmasıyla görüntü dönüştürücü kavramı ortaya çıkmış ve derin evrişimsel sinir ağlarına oranla daha yüksek başarım sağladığı gösterilmiştir. Sonuç olarak, farklı yaklaşımların tek bir yapıda harmanlanmasıyla daha iyi bir yüz tanıma performansına ulaşılabileceği düşünülmüştür. Bu tez çalışması kapsamında, girdi olarak görünür veya termal bir görüntü alan hibrit bir yüz tanıma yaklaşımı önerilmiştir. Yaklaşım, ön işleme, yüz tespiti, yüz hizalama, öznitelik çıkarımı ve sınıflandırma olmak üzere beş aşamadan oluşmaktadır. Yaklaşımın ön aşamasında, tek kanallı termal görüntüler derin modellere girdi olarak verilebilmesi amacıyla kanal çoklama yöntemiyle üç kanala çıkarılmıştır. Kullanılan veri kümeleri özel koşullarda hazırlandığı için görüntüler üzerinde başka bir ön işlem adımına ihtiyaç duyulmamıştır. Yüz tespiti kısmında iki çeşit yüz tespit mimarisi kullanılmıştır. Bu yüz tespit mimarileri, Dlib kütüphanesinde bulunan maksimum marjlı nesne tespiti yaklaşımı ve çok görevli sıralanmış evrişimsel sinir ağı yöntemidir. Maksimum marjlı nesne tespiti, veri kümelerimiz üzerinde daha iyi sonuçlar elde etmiştir. Diğer taraftan, çok görevli sıralanmış evrişimsel sinir ağı, derin yüz tanıma sistemleri için bir standart yüz tespit mimarisi olduğu için tercih edilmiştir. Yüz hizalama adımı, tespit edilen yüz görüntüsü ve göz merkez noktalarını girdi olarak almaktadır. Bu aşamada, yüz görüntüleri üzerinde hiyerarşik bir arama şeması ile göz merkezi kombinasyonları oluşturulmuştur. Son olarak, yeni yüz görüntüleri oluşturulmuş ve bu göz merkez noktalarına göre hizalanmıştır. Bu hizalama adımları, yerel görünüme dayalı yaklaşımdan önce uygulanmıştır. Öznitelik çıkarım adımı üç farklı yaklaşımdan oluşmaktadır. İlki, maksimum marjlı nesne tespiti modelinden elde edilen hizalanmış gri seviyede bir yüz görüntüsünü girdi olarak alan yerel görünüm tabanlı yaklaşımdır. Bu yöntemde, girdi görüntüsü sabit bir çözünürlüğe sahip bloklara bölünmektedir. AKD katsayıları, her blokta AKD işlemi gerçekleştirilerek hesaplanır ve zikzak tarama kullanılarak sıralanmaktadır. Böylece özellik vektörü oluşturulmaktadır. Sonuç olarak, bu yöntem 640 boyutlu bir öznitelik vektörü üretmektedir. İkinci ve üçüncü yaklaşımlarda, derin öğrenme tabanlı modeller, çok görevli sıralanmış evrişimsel sinir ağından elde edilen hizalanmış yüzleri girdi olarak almaktadır. ResNet-50 omurga ağına sahip Arcface modeli, MS1MV2 veri setinde önceden eğitilirken, görüntü dönüştürücü model ise MS-Celeb-1M veri setinde önceden eğitilmiştir. Her iki derin model de çıktı olarak 512 boyutlu bir öznitelik vektörü üretmektedir. Bu derin modeller, doğrudan görünür yüz tanıma için kullanılmaktadır. Ancak bu derin modeller, termal yüz tanıma için ince ayarlanmıştır. Yaklaşımın son kısmı olan sınıflandırmada, girdi görüntüsünden elde edilen öznitelik vektörleri galeri görüntülerinden oluşturulan öznitelik vektörleri ile en yakın komşu tabanlı algoritmalar kullanılarak karşılaştırılmıştır. Elde edilen uzaklık çıktıları katsayılarla ağırlıklandırılarak karar birleştirimi yapılmıştır. Literatürde, yüz tanıma için kullanılan birçok görünür ve termal yüz veri kümesi mevcuttur. Bu çalışma kapsamında EURECOM, Carl ve ROF veri kümeleri kullanılmıştır. EURECOM veri kümesi, 50 farklı kişiden elde edilen görünür ve termal eşleştirilmiş yüz görüntü çiftlerinden oluşmaktadır. Toplamda 2100 adet görüntü içermektedir. Bu veri setindeki görüntüler, değişen yüz ifadesi, aydınlatma koşulu, baş pozisyonu ve yüz engelleme varyasyonlarına sahiptir. Bu tez çalışması kapsamında, EURECOM veri kümesi test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Görüntü varyasyonları içerisinde yer alan yüz ifadesi varyasyonunda bulunan ifadesiz kalma durumu kişiye ait referans görüntü olarak seçilerek galeri alt veri kümesine eklenmiştir. Geri kalan yüz ifade varyasyonları ve diğer varyasyonlar modelimizin genellenebilirliğini gözlemleyebilmek amacıyla sorgu alt veri kümesine eklenerek değerlendirme aşamasında kullanılmıştır. Ayrıca, EURECOM veri kümesi içerisinde yer alan termal üst yüz engelleme varyasyonundan rastgele seçilen 50 örnek doğrulama aşamasında kullanılmıştır. Carl veri kümesi, 41 farklı kişiye ait görünür, yakın ve uzun dalga kızılötesi yüz görüntüleri içermektedir. Bu veri setindeki görüntüler farklı tarihlerde düzenlenen dört farklı oturum sonucu elde edilmiştir. Her oturumda her bir kişi için üç farklı aydınlatma koşulunda beş farklı anlık görüntü çekilmiştir. Bu çalışmada, Carl veri kümesi içerisinde yer alan sadece uzun dalga kızılötesi, yani termal yüz görüntüleri kullanılmıştır. Bu termal görüntüler, hibrit yaklaşımımızdaki derin öğrenme modellerinin termal alana uyarlanabilmesi için uyguladığımız ince ayar işleminde kullanılmıştır. ROF veri kümesi ise güneş gözlüğü ve maskeler nedeniyle gerçek hayatta oluşan yüzün üst ve alt kısmının engellenme durumuna sahip görüntüleri içermektedir. Bu amaçla veri kümesinde iki farklı protokole yer verilmiştir. İlk protokol üst yüz engelleme durumlarını içeren görüntüleri ele alırken ikinci protokol alt yüz engelleme sorunu için oluşturulmuştur. Bu çalışmada, ROF veri kümesinin 161 farklı kişi içeren ilk protokolü test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Bu veri kümesinde her bir kişiye ait üç galeri görüntüsü mevcuttur ve bu görüntüler referans olarak seçilerek galeri alt kümesine eklenmiştir. Ayrıca, protokoldeki güneş gözlüğü ile oluşturulan üst yüz engellenme durumundaki görüntülerden bir küme oluşturulmuştur. Bu kümenin içerisinden rastgele seçilen 1000 adet örnek görüntü, doğrulama aşaması için kullanılmıştır. Geri kalan üst yüz engelleme durumuna sahip görüntüler ise yöntemimizin görünür görüntüdeki üst yüz engellenme durumu performansını değerlendirmek için sorgu alt veri kümesine eklenerek test aşamasında kullanılmıştır. Bu tezde incelenen noktalardan biri de derin öğrenme modellerinin termal yüz tanıma performansı olmuştur. Termal yüz tanıma performansını artırmak için, önceden eğitilmiş derin modeller, Carl veri kümesindeki termal görüntülerle ince ayarlanmıştır. Yapılan deneyler sonucunda ince ayarlı modellerin termal alana başarılı bir şekilde uyarlandığı görülmüştür. Önerilen yaklaşımdaki bileşenlerin yüz tanıma sonuçları üzerindeki katkıları araştırılmıştır. Bu bağlamda, yüz hizalamanın yerel görünüme dayalı yüz tanıma yaklaşımı üzerindeki etkisi gözlenmektedir. Yerel görünüm tabanlı yöntem, yüz hizalama uygulandığında hem görünür hem de termal görüntülerde çok daha iyi yüz tanıma sonuçları vermiştir. Farklı hibrit modeller oluşturulmuş ve birbirleri ile karşılaştırılmıştır. Bu amaçla sırasıyla Arcface ve görüntü dönüştürücü modeller öznitelik çıkarım aşamasından çıkarılmıştır. Böylece, iki farklı modele sahip hibrit kombinasyonlar oluşturulmuştur. Deneysel sonuçlara dayanarak, üç farklı modeli içeren hibrit yaklaşımın hem görünür hem de termal görüntüler üzerinde en iyi sonuçları verdiği gözlemlenmiştir. Sonuç olarak, bu üç farklı modelin tek bir yapıda başarıyla birleştirilebileceği kanıtlanmıştır.
Özet (Çeviri)
Face recognition is the process of identifying or verifying a person's identity using a facial image. Recently, face recognition has been one of the prominent topics in the field of biometric. Facial recognition systems are widely used in many areas such as surveillance systems, banking and public security. For example, face recognition could be used to track individuals in real-time, which help law enforcement agencies to prevent and solve crimes. On the contrary, the collection and storage of sensitive biometric data could be perceived as intrusive and may raise privacy concerns. It may be perceived as intrusive or violating individual privacy. This has raised concerns about the potential misuse of this technology. Recent works on face recognition has shown successful results on visible images. On the other hand, infrared imaging technique is used along with visible imaging, especially for military purposes such as border security. The visible and infrared spectra are located in different frequency bands of the electromagnetic spectrum. The frequency band of the infrared corresponds to wavelengths of 750 nm to 1 mm of the electromagnetic spectrum and it is not visible to the human eye. Furthermore, infrared imaging systems detect the distribution of heat energy throughout an environment. Thermal images are formed by converting this energy into a visible image with cooled or uncooled thermal detectors. Therefore, visible and thermal domains have different properties. In this study, a face recognition approach that could produce successful results on both visible and thermal image domains has been researched. Deep convolutional neural networks have reached successful results on many visual tasks. Also, they are widely used in face recognition. Various margin-based loss functions that have different strategies stand out from the recent studies of this field. Advances in these loss functions have increased the discriminability of the faces. However, it has been demonstrated that these networks focus on the eye region for face recognition. This issue results in poor performance of deep convolutional neural network models, especially in the case of upper face occlusion. On the other hand, many studies have previously shown that local appearance-based approaches are more robust to upper-face occlusion. Moreover, the concept of vision transformers has emerged with the use of transformers in the image domain and it has been shown to achieve higher performance than deep convolutional neural networks. A better face recognition performance could be achieved by combining these approaches in a single framework, and this was the main motivation of this study. In this thesis, a hybrid face recognition approach that takes a visible or thermal image as an input is proposed. The approach basically consists of five stages: pre-processing, face detection, face alignment, feature extraction, and classification steps. In the preliminary stage of the approach, single-channel thermal images are replicated to three channels in order to feed them as input for the deep models. Since the datasets that are used in this study are prepared under controlled conditions, there is no need for additional pre-processing steps. In the face detection part, two face detectors are used. These face detectors are the max-margin object detection approach in the Dlib library and the multitask cascaded convolutional neural network method. Max-margin object detection performs much better face detection performance on our datasets. On the other part, multitask cascaded convolutional neural network is a norm detector for deep face recognition systems. In the face alignment step, the detected face image and facial landmarks, eye centers, are taken as input. In this stage, different eye center combinations were formed by changing the center position of the eye in a fixed size window with a hierarchical search scheme on facial images. Finally, new facial images are generated and aligned with respect to these eye center points. These alignment steps are applied before the local appearance-based approach. The feature extraction step consists of three different approaches. The first one is local appearance-based approach which is based on discrete cosine transform (DCT) and takes an aligned gray level face image obtained from the max-margin object detection model as an input. It produces local features preserving spatial information from face images. In this method, input image is divided into blocks with a fixed size of resolution. DCT coefficients are calculated by performing the DCT operation on each block and are sorted using zigzag scanning. Feature vector is created with the following ten coefficients. Then, this vector is normalized by converting it to a unit vector using the unit normalization method. As a result, this method produces a 640-dimensional feature vector. In the second and third approaches, deep learning-based models, Arcface and Vision Transformers, take the aligned faces obtained from the multitask cascaded convolutional neural network as an input. Arcface model with the ResNet-50 backbone is pre-trained on the MS1MV2 dataset while vision transformer model is pre-trained on the MS-Celeb-1M dataset. Both deep models generate a 512-dimensional deep feature vector as output. These deep models are directly used for the visible face recognition task. However, these deep models are fine-tuned for thermal face recognition. In the classification part, the feature vectors obtained from the input images are compared with the feature vectors formed from the gallery ones by using the nearest neighbor algorithm. A decision fusion scheme is applied by weighting the obtained distances from the nearest neighbor classifier. There are many visible and thermal paired face datasets used for face recognition in the literature. In this study, three different datasets are used. The datasets are named as EURECOM, Carl and ROF. The EURECOM dataset consists of visible and thermal paired facial images taken from 50 different individuals. In total, it contains 2100 images. Images in this dataset contain varying facial expression, illumination condition, head position, and occlusion. Within the scope of this thesis, the EURECOM dataset is used for testing and validation purposes. In the testing phase, this dataset is divided into gallery and probe subsets. Neutral images in the facial expression variation are selected as the reference image of the individuals and they are added to the gallery subset. The rest of facial expression variations and other variations are added to the probe subset and they are used in the evaluation phase in order to observe the robustness of our hybrid approach. In addition, randomly selected 50 samples from the thermal upper-face occlusion variation in the EURECOM dataset are used in the validation step. The Carl dataset contains visible, near and long wave infrared facial images of 41 different individuals. The images in this dataset are obtained from four different sessions held on different dates. In each session, five different snapshots are taken for each person under three different illumination conditions. In this study, only long-wave infrared, also known as thermal face images, in the Carl dataset are used. These thermal images are used to fine-tune the deep learning models in our hybrid approach in order to adapt them to the thermal domain. On the other hand, the ROF dataset contains images from the visible domain. These face images are either non-occluded or have upper or lower facial occlusion due to sunglasses or masks, respectively. The dataset includes two different protocols. The first protocol has images with upper face occlusion while the second protocol is created for the lower face occlusion problem. In this study, the first protocol of the ROF dataset is used for testing and validation. The protocol has 161 different people. In the testing phase, this dataset is divided into two subsets as gallery and probe. In this dataset, there are three non-occluded gallery face images for each person. The images with upper-face occlusion are added to the probe subset. In addition, a new subset is created from the images with the upper-face occlusion. 1000 sample images are randomly selected from this subset and they are used for validation. One of the analyzed points in this thesis is the thermal face recognition performance of deep learning models. Since only visible images are used for the training of these models, it is reported that their thermal face recognition performance is considerably lower than their results in the visible domain. In order to increase thermal face recognition performance, pre-trained Arcface and vision transformer deep models are fine-tuned with thermal images in the Carl dataset. After the experiments, it is observed that the fine-tuned models are successfully adapted to thermal domain. It is also shown that these fine-tuned models produce more reliable thermal facial recognition results in the cases of challenging facial appearance variations such as facial expression, illumination conditions, head position, and occlusion. The contributions of the components in the proposed approach are investigated on the face recognition results. In this context, the effect of face alignment on the local appearance-based face recognition approach is observed. The local appearance-based method performs much better face recognition accuracies on both visible and thermal images when the face alignment is applied on it. In detail, when the experimental results are examined, 31-60\% in the visible domain and 22-26.4\% in the thermal domain improvements has been reported on block-based DCT method with face alignment. Different hybrid models are created and compared with each other. For this purpose, Arcface and vision transformer models are removed from the feature extraction stage, respectively. Then, hybrid combinations having two different models are created. Based on the experimental results, it has been observed that the hybrid approach, which includes three different models, gives the best results on both visible and thermal images. Therefore, it has been demonstrated that these three different models could be successfully combined in a single structure.
Benzer Tezler
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Derin obje sezicilerle tümleştirilmiş bayesçi filtreleme ile videoda obje izleme
Integration of bayesian filtering and deep object detection for video object tracking
FİLİZ GÜRKAN GÖLCÜK
Doktora
Türkçe
2021
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- A transformer-based approach for fusing infrared and visible band images
Kızılötesi ve görünür bant görüntülerin birleştirilmesi için transformer tabanlı bir yaklaşım
AYTEKİN ERDOĞAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
DOÇ. DR. ELİF SÜRER
DOÇ. DR. ERDEM AKAGÜNDÜZ
- Statistical feature learning and signal generation for time-series sensor signals
Zaman serisi sensör işaretleri için öznitelik öğrenimi ve işaret üretimi
ERKAN KARAKUŞ
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE