On real-world face super-resolution and face image synthesis evaluation
Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine
- Tez No: 885675
- Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 70
Özet
Derin öğrenme, büyük veri kümeleri ve gelişmiş ekran kartları gibi faktörler sayesinde, bilgisayarla görü gibi birçok alanda devrim yarattı. Evrişimli Sinir Ağları (CNN), sınıflandırma ve sentez gibi birçok görevde olağanüstü performans elde ederek yaygın mimari haline geldi. Sonrasında ise, Dönüştürücülerin doğal dil işleme alanında büyük başarı kazanması nedeni ile birçok araştırmacı bu mimarilerin bilgisayarla görü alanında uygulanabilirliğini araştırmaya başladı. Görüntü Dönüştürücü (ViT), Dönüştürücülerin görü alanındaki başarılı uyarlamalarından biri olarak öne çıktı. Ayrıca Dönüştürücülerin ölçeklenebilirlik özelliği temel (foundation) modellerin geliştirilmesine yol açtı. Bu modeller çok fazla parametreye sahip olup çok geniş veri kümelerinde eğitilmektedir ve olağanüstü genelleme özellikleri göstermektedir. Biyometride temel bir problem olan yüz tanıma araştırmalarında da derin öğrenme sayesinde önemli ilerleme kaydedildi. Ek olarak, daha ayrıştırıcı öznitelikleri öğrenmek için özel olarak geliştirilen kayıp fonksiyonları, yüz tanıma modellerinin başarımlarının artmasında önemli bir rol oynadı. Ancak bu gelişmelere rağmen yüz tanımanın temel zorluklarından biri, kontrollü ortamlarda toplanan yüz görüntüleriyle geliştirilen modellerin gerçek dünya uygulamalarında performansının azalmasıdır. Bu performans kaybı, eğitim veri kümesindeki görüntülerde olduğu gibi gerçek dünya görüntülerinin kontrollü ortamlarda toplanmaması nedeniyle oluşan alan farklılığından (domain gap) kaynaklanmaktadır. Düşük çözünürlük, bulanıklık ve gürültü gibi bozulmalara birlikte maruz kalan bu gerçek dünya görüntüleri, bu tür karmaşıklıklardan yoksun veri kümeleri üzerinde eğitilen yüz tanıma sistemlerinin performansını önemli ölçüde düşürür. Bahsedilen zorluklardan dolayı yüz tanıma, gerçek dünyadaki düşük çözünürlüklü görüntülerde zorluk yaşamaktadır. Bu nedenle gerçek dünya senaryolarına daha yakın olan kontrolsüz ortamda (in the wild) veri kümeleri toplandı. Dahası, bazı çalışmalar, düşük çözünürlüklü görüntülerle etkili bir şekilde çalışmaya odaklanarak veya gömme uzayı seviyesinde düşük ve yüksek çözünürlüklü görüntüler arasındaki alan farkını kapatarak bu soruna yaklaştı. Ayrıca, bazı araştırmacılar görüntü sentezleme yöntemleri ile düşük çözünürlüklü görüntüleri yüksek çözünürlüklü görüntülere benzeyecek -- veya tam tersi -- şekilde modifiye etme yoluyla bu konuya yaklaştı. Üretken Çekişmeli Ağ (GAN) tabanlı yöntemler, bu görüntü iyileştirme veya bozma görevlerinde yaygın olarak tercih edilen yaklaşımlardandır. Gerçek dünya süper çözünürlüğü, kontrolsüz ortamlarda çekilen düşük çözünürlüklü görüntülerin kalitesini ve çözünürlüğünü iyileştirmeyi amaçlamaktadır. Bu alanda önemli bir darboğaz, düşük çözünürlüklü ve buna karşılık gelen yüksek çözünürlüklü görüntüleri içeren büyük eşli veri kümelerine duyulan gereksinimdir. Bu tür veri kümelerinin oluşturulması, gerçek dünya düşük çözünürlüklü bir görüntünün yüksek çözünürlüklü bir karşılığının bulunmasının zor olması nedeniyle pahalı ve zaman alıcıdır. Bu eşli veri kümesi darboğazının üstesinden gelmek için araştırmacılar, yüksek çözünürlüklü görüntüleri sentetik olarak bozarak veya gerçek dünyadaki bozulmalar üzerine eğitilmiş bir üretken ağı kullanarak düşük çözünürlüklü görüntüler üretmeye çalıştılar. Böylelikle yapay olarak da olsa düşük-yüksek görüntü çiftleri ile eğitim yapabildiler. Bozunma üretkeni aracılığıyla düşük çözünürlüklü görüntüler üreten mevcut yöntemler, üretken eğitimi tamamlandıktan sonra genellikle gerçek dünya düşük çözünürlüklü verilerine ihtiyaç duymayabilirler. Bu görüntülerin kullanışlılığını artırmak için Artık Tutarlılık adı verilen iki adımlı yeni bir yöntem önerdik. Artık Tutarlılık, değerli alan bilgilerinden yararlanmak için gerçek dünyada düşük çözünürlüklü görüntüleri doğrudan eğitim sürecine dahil eder. Bunu yapmak için yöntemimiz, iki görüntü iyileştirme varyasyonunu düşük çözünürlükte birlikte kullanarak girdi gerçek dünya düşük çözünürlüklü görüntüyü yeniden oluşturur. Artık Tutarlılık yöntemini ilgili iki çalışmada kullanılan veri kümeleri üzerinde değerlendirdik. Ayrıca yöntemimizi bahsedilen çalışmalardaki yöntemler ile de karşılaştırdık. Bu yöntemlerin paylaşılan resmi modellerini kullanmanın yanı sıra, kendimiz de eğitmeye çalıştık. Ayrıca deneyleri iki farklı sunucuda tekrarladık. Üretilen görüntülerin gerçekçiliğinin değerlendirmesi için ortak bir ölçüm olan FID puanı kullanılmasının yanı sıra görsel inceleme de yaptık. Artık Tutarlılık ile eğittiğimiz modeller, paylaşılan resmi modellerin elde ettiği FID puanlarını geçemese de yakın sonuçlar elde etti. Ayrıca, Artık Tutarlılık kullanan iki farklı düşük çözünürlüklü iyileştirme modelinin sonuçları karşılaştırıldığında, FID puanlarının birbirine çok yakın olduğu görüldü. Bu önerilen tutarlılık ilişkisini desteklemektedir. Ancak, sayısal değerlendirme (FID puanı) ile görsel incelemede algılanan kalite arasında, görsel kalitenin FID puanlarıyla birebir ilişkili olmadığı fark edildi. Yakın FID puanı alan modeller arasında kalite farkı bulunması ya da daha yüksek FID puanı alan modelin düşük puan alanlardan daha gerçekçi görüntü üretmesi gibi durumlar, bu değerlendirme ölçümlerine dair soru işaretleri oluşturdu. Bu tutarsızlıklar, yüz görüntüsü sentezi için mevcut değerlendirme ölçütlerinin sınırlamalarına ilişkin daha derin bir araştırma başlatmamıza neden oldu. Geleneksel olarak görüntü sentezi değerlendirmesi, bireylerin, üretilen ve gerçek görüntüler arasında ayrım yapmaya çalıştıkları öznel değerlendirmelere dayanıyordu. Modeller, insan değerlendiricileri aldatma yeteneklerine göre karşılaştırılıyordu. Daha yüksek kafa karışıklığı daha fazla gerçekçilik ile ilişkilendiriliyordu. Ancak sentez yöntemlerinin popülerliği arttıkça, insan değerlendirmesinin büyük deney düzeneklerine göre etkili bir şekilde ölçeklendirilmesi zorlaştı. Dolayısıyla bu durum algoritma tabanlı otomatik nesnel değerlendirme yaklaşımlarının geliştirilmesini zorunlu hale getirdi. Bu yöntemler, önceden eğitilmiş öznitelik çıkarıcı ağların kullanılması üzerine tasarlanmaktadır. Görüntülerden öznitelikler çıkarıldıktan sonra, bu özniteliklerin üzerinde istatistiksel alan farklılığı gibi analizler/hesaplamalar yapılmaktadır. Son araştırmalar, özellikle ağların kullandıkları eğitim verilerinden dolayı, yüz görüntüsü sentezi değerlendirmesi için yaygın olarak kullanılan öznitelik çıkarıcı ağların uygunluğunu sorguladı. Bu sorgulamadan yola çıkarak ve gerçek dünya süper çözünürlük çalışma sonuçlarımızda karşılaşılan tutarsızlıklardan motive olarak, odak noktamızı yüz görüntüsü sentezi değerlendirmesinde kullanılan öznitelik çıkarıcı ağların davranışlarını analiz etmeye yönlendirdik. Kapsayıcı bir anlayış elde etmek için çeşitli alanlardan ve mimarilerden öznitelik çıkarıcı ağları -- InceptionV3, CLIP, DINOv2, ArcFace -- ile birden fazla değerlendirme ölçütlerini -- FID, KID, P\&R -- kullanarak detaylı bir çalışma yürüttük. Çalışmamızda, farklı yöntemlerle -- StyleGAN2, Projected Fast GAN -- oluşturulan sentetik görüntü veri kümeleri ve gerçek görüntü veri kümeleri -- FFHQ, CelebA-HQ -- kullanıldı. Farklı ağların özelliklerinden hangi sonuçların insan yargısına benzer olduğunu kontrol etmek için bir referans insan değerlendirmesine ihtiyaç vardır; örneğin sıralamalar karşılaştırılabilir. Bu tür bir referansa sahip olmadığımız için analizimize rehberlik etmesi amacıyla görüntü gerçekçiliğine ilişkin bazı varsayımlardan yararlandık. İlk varsayım doğrultusunda, sentetik görüntü veri kümelerinden birinin -- eğitim düzeneği ve görsel analiz de dikkate alındığında -- daha gerçekçi olduğunu ve dolayısı ile model/ölçüt sonuçlarının gerçekçi veri kümesinde daha iyi sonuç verip vermediğini kontrol ettik. İkinci varsayımda ise, sentetik yerine gerçek veri kümesi kullanıldığında model/ölçüt çiftlerinin nasıl sonuç verdiğini inceledik. Doğrudan çıkarılan öznitelik vektörlerinin kullanılmasının yanında $L_2$ normalizasyonu uygulanmış öznitelik vektörlerini de değerlendirdik. Değerlendirme süreci ile ilgili analizlerimizi desteklemek için model dikkat ısı haritaları ve öznitelik dağılımı gibi görsel çıktılardan faydalandık. Sonuçlar, $L_2$ normalizasyonunun, model/ölçüt tercihlerini değiştirerek değerlendirmeyi etkileyebileceğini gösterdi. Farklı öznitelik çıkarıcı ağların değerlendirme sırasında yüzün farklı bölgelerine odaklandığı görüldü. İlginç bir şekilde değerlendirme model/ölçüt çiftleri, gerçek veri kümelerine kıyasla sentetik veri kümeleri ile daha iyi başarım gösterdi. Bu olgu, öznitelik alan dağılımlarının sentetik kaynak alanı ile örtüşürken, gerçek kaynak alanı ile birbirinden ayrı olmasıyla da gözlemlendi. Bu araştırmada, gerçek dünya düşük çözünürlüklü yüz görüntüleriyle çalışmanın zorluklarını ele aldık. Düşük çözünürlüklü alan bilgisinden süper çözünürlük için daha fazla yararlanmak üzere gerçek dünya düşük çözünürlüklü verileri eğitim sürecine etkili bir şekilde dahil eden Artık Tutarlılık yöntemini önerdik. Sayısal değerlendirme sonuçları göz önüne alındığında, resmi paylaşılmış modeller ile karşılaştırılabilir sonuçlar aldık. Ayrıca, bu sayısal sonuçlar ile algılanan görüntü kalitesi arasında farklılıklar tespit ettik. Bu nedenle, otomatik yüz görüntüsü sentezi başarımı değerlendirmesindeki sınırlamaları analiz etmek için çeşitli öznitelik çıkarıcı ağları ve metrikleri kullanarak kapsamlı bir çalışma yaptık. Bu bulgular ışığında, gelecekteki çalışmalar, yüz görüntüsü sentezi için hem koşulsuz/rastgele hem de süper çözünürlükteki gibi koşullu üretme problemlerinde kullanılabilecek daha işlevsel değerlendirme yöntemleri geliştirmeye odaklanacaktır. Bunun yanı sıra, öznitelik çıkarıcı ağları, değerlendirme ölçütleri ve sonuç analizi metodolojileri gibi konular dahil olmak üzere, öznitelik çıkarıcı davranışına ilişkin yapılan araştırma genişletilecektir. Ek olarak, Artık Tutarlılık yaklaşımı için giriş kimliğinin özelliklerini korurken, oluşturulan yüksek çözünürlüklü görüntülerin kalitelerinin iyileştirilmesi üzerine çalışılacaktır.
Özet (Çeviri)
The advancements in deep learning have brought revolutionary changes across various fields, particularly in computer vision and natural language processing. CNNs have emerged as the primary deep neural network architecture in computer vision, delivering outstanding performance in many tasks, such as classification and image synthesis. With the introduction of Transformers in natural language processing, researchers have shifted their attention to exploring their potential in computer vision. ViT stands out as a successful application of Transformers in the vision domain. Furthermore, the scalability characteristic of Transformers has led to the development of foundation models that have shown great generalization capability. Face recognition, a fundamental problem in biometrics, has made significant progress thanks to deep learning. Despite these advancements, a major challenge in face recognition has remained: the difference in performance between controlled environments and real-world applications. This difference arises from the domain gap of the used training images, since real-world images are not collected in controlled environments like images in the training dataset. These real-world images often have been subjected to degradations, such as low resolution, blur, and occlusions. This quality difference significantly affects the performance of face recognition systems trained on datasets that do not include these complexities. Due to these difficulties, face recognition approaches have struggled when they have to cope with real-world low-resolution images. Some researchers have addressed this by focusing on operating with low-resolution images or bridging the gap between low-resolution and high-resolution domains in the embedding space. Additionally, some researchers have tackled this problem through image synthesis, such as enhancing low-resolution images to high-resolution ones or vice versa. Generative Adversarial Network-based methodologies have been commonly used for these enhancement and degradation tasks. Real-world super-resolution addresses the quality and resolution enhancement of the low-resolution images captured in real-world scenarios. A crucial bottleneck in this field is the need for large datasets containing low-resolution and high-resolution image pairs. Collecting these paired datasets is expensive and time-consuming since finding a high-resolution counterpart of a real-world low-resolution image is challenging. To address this challenge, some studies have attempted to generate low-resolution pairs from high-resolution images using synthetic degradation pipelines that simulate real-world degradations. Additionally, some researchers have used generator networks trained to mimic real-world degradations instead of the degradation pipeline. In these methods that train a degradation generator, the real-world low-resolution images become idle after the generator is trained. To address this issue, we proposed a two-step method called Residual Consistency to utilize these images more. This method directly incorporates real-world low-resolution images into training to benefit the valuable domain information. We achieve this by reconstructing the input low-resolution image using two image enhancement variations together. We conducted experiments using two similar studies and their datasets, comparing our method with theirs. We used the FID score for evaluation and also visually inspected the outputs. Even though we could not surpass the FID scores of the officially published models, we achieved competitive results. Furthermore, when comparing the results from two low-resolution enhancement models, the FID scores are very similar, supporting the proposed consistency. However, we noticed differences between the numerical metric results and the perceived quality upon visual inspection. The visual quality did not completely correlate with the FID scores in this inspection. This inconsistency initiated a more in-depth investigation into the limitations of current evaluation metrics for face image synthesis. Many early assessments of image synthesis relied on human judgment, where many individuals tried to differentiate between real and generated images. Models were evaluated based on how much they confused the assessors, with more confusion indicating the more realistic generated images. Human assessment has become hard to scale as synthesis methods have become more popular. This has led to the need to develop automatic quantitative evaluation approaches. These approaches often rely on a pre-trained feature extractor, where calculations are made upon the extracted features from this network. Recently, concerns have been raised about whether the most commonly used feature extraction network is suitable for evaluating face image synthesis due to its training data. After considering this debate and the inconsistencies found in the real-world super-resolution results, we decided to shift our focus to analyzing the behavior of the feature extractor networks for face image synthesis evaluation. We conducted a comprehensive study using various feature extractor networks and metrics to gain a deeper understanding. This study involved analyzing diverse datasets containing real images and synthetic ones. We investigated the effect of $L_2$ normalization, models' attention during feature extraction, and the distribution of the features. A reference human assessment is needed to check which results from different networks' features are similar to human judgment, where the orderings can be compared, for example. Since we do not have this kind of reference, we operated some assumptions regarding realism to guide our analysis. From the results, we found that $L_2$ normalization can impact the assessment by altering the preferences of the models. Different networks focus on distinct regions of the face image during the evaluation process. Interestingly, the metrics favored synthetic datasets over real datasets. We also noticed this trend in the distribution analysis of the extracted features. These findings indicate that existing metrics using pre-trained feature extractors may not be entirely suitable for accurately reflecting image realism in the context of facial images, as in the super-resolution study we worked on. This study addressed the challenges of working with real-world low-resolution face images. We proposed the Residual Consistency method, which effectively incorporates real-world low-resolution images into the training process to better utilize low-resolution domain information for super-resolution. Additionally, we discovered discrepancies between the evaluation metrics used and the perceived image quality. As a result, we conducted a comprehensive investigation using various feature extractor networks and metrics, revealing limitations in automatic face image synthesis assessment. In light of these findings, the upcoming work will concentrate on a more functional and explainable method development to evaluate face image synthesis, covering both unconditional/random generation and conditional tasks, such as super-resolution. This effort will be supported by a more comprehensive study of feature extractor behavior, including expanding the exploration of feature extractor networks, evaluation metrics, and result analysis methodologies. Additionally, we will work on improving the quality of the high-resolution images generated while maintaining the input identity's features for the Residual Consistency method.
Benzer Tezler
- Seyreklik ve sözlük öğrenme yaklaşımlarının sınıflandırma ve yüz tanımaya uygulanması
Classification and face recognition application of sparsity and dictionary learning based methods
BERNA AZİZOĞLU
Yüksek Lisans
Türkçe
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. ENDER METE EKŞİOĞLU
- Düşük çözünürlüklü yüz görüntülerinin yerel zernike momentleri yöntemi ile sınıflandırılması
Classification of the low resolution face images by local zernike moments method
TOLGA ALASAĞ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUHİTTİN GÖKMEN
DOÇ. DR. MUSTAFA ERSEL KAMAŞAK
YRD. DOÇ. DR. SERAP KIRBIZ
- Güvenlik kameralarındaki yüz görüntülerinin süper çözünürlüklenetleştirilmesi
Face enhancement in surveillance systems using super-resolutiontechniques
ALİ HÜSAMEDDİN ATEŞ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSEYİN ESKİ
- Termal görüntü çözünürlüğünün artırılması için derin öğrenme tabanlı bulut sisteminin geliştirilmesi
Development of cloud system based on deep learning for thermal image resolution enhancement
FATİH MEHMET ŞENALP
Doktora
Türkçe
2022
Elektrik ve Elektronik MühendisliğiKonya Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT CEYLAN
- Le rapport des droits de l'homme au politique: Lefort et Rancière
İnsan haklarının politik-olan bağlantısı: Lefort ve Rancière
EYLEM YOLSAL MURTEZA
Doktora
Fransızca
2022
FelsefeGalatasaray ÜniversitesiFelsefe Ana Bilim Dalı
PROF. DR. ALİYE KARABÜK KOVANLIKAYA