Geri Dön

Güvenlik kameralarındaki yüz görüntülerinin süper çözünürlüklenetleştirilmesi

Face enhancement in surveillance systems using super-resolutiontechniques

  1. Tez No: 899643
  2. Yazar: ALİ HÜSAMEDDİN ATEŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HÜSEYİN ESKİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Sakarya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Günümüzde güvenlik kameraları kamu ve askeri alanlardan endüstriyel tesislere, iş yerlerinden trafik denetimine kadar geniş bir kullanım yelpazesine sahiptir. Bu sistemler genel olarak güvenliğin ve asayişin sağlanması, suçların önlenmesi ve delillerin toplanması gibi kritik amaçların yanı sıra endüstriyel iş takibi ve üretim hatlarının kontrolü gibi çok çeşitli alanlarda kullanılmaktadır. Bununla birlikte mevcut birçok güvenlik kamerasının düşük çözünürlükte ve detayda kayıt yapması, özellikle uzak mesafelerde ve düşük ışık koşullarında görüntü kalitesini olumsuz yönde etkilemektedir. Mevcut güvenlik sistemlerinin yeni nesil yüksek çözünürlükte kayıt yapabilen sensörlere sahip kameralarla güncellenmesi ise hem maliyetli hem de zamana yayılmış bir süreçtir. Günümüzde görüntü işleme alanında, kamera görüntülerinin iyileştirilmesinde derin öğrenme tabanlı süper çözünürlük mimarilerinin kullanımı gittikçe yaygınlaşmaktadır. Düşük çözünürlük ve detaydaki görüntülerin, görüntü detayları ve keskinliği korunarak daha yüksek çözünürlüklere üst örneklenmesi, dijital görüntü işleme alanında süper çözünürlük adı altında incelenmektedir. Görüntü işleme alanında süper çözünürlük teknikleri genel olarak fotoğraf ve video görüntülerinde, medikal görüntülemede, güvenlik sistemlerinde, uzaktan tespit yapan cihazlarda ve uydudan görüntüleme gibi birçok alanda görüntünün restorasyonu ve çözünürlüğünün artırılması amaçlarıyla yaygın olarak kullanılmaktadır. Bu çalışma, güvenlik sistemlerinden alınan görüntülerdeki şahısların görünürlüğünü süper çözünürlük yöntemleri ile artırarak, normal şartlarda insan gözü veya yüz tanıma sistemleri ile tespitin mümkün olmadığı durumlarda yazılımsal bir iyileştirme sunmayı amaçlamaktadır. Tez kapsamında önerilen VNet mimarisi, düşük çözünürlükteki yüz görüntülerini süper çözünürlük ile yüksek çözünürlük ve detaydaki görüntülere dönüştürmek amacıyla derin öğrenme tabanlı bir konvolüsyon ağı ve şahısların yüz biyometrisini korumak için önceden eğitilmiş bir FaceNet modelinden oluşmaktadır. Geliştirilen ağda kodlayıcı-çözücü mimarisinin avantajları kullanılarak hem görüntü detayları korunurken hem de kayıp bölgeler restore edilmektedir. Yüz görüntülerinin süper çözünürlükle restore edilmesi veya üst örneklenmesi konusunda yapılan çalışmalarda, elde edilen görüntünün kalitesi, yüksek metrik başarımları ve görsel iyileştirmeler çoğu zaman ön planda tutulmakta, biyometrik açıdan aslına uygunluk ikinci planda kalmaktadır. Yapılan çalışmada önceden eğitilmiş FaceNet modelinin biyometrik hata beslemesi sayesinde üretilen çıktı görüntüsü, asıl görüntüye olan kalıtsal benzerliğinden koparılmadan, bir yandan görsel iyileştirmeler yapılırken diğer yandan da yüksek doğrulukta çıktılar alınabilmektedir. VNet mimarisi, çeşitli yüz görüntü veri setleri ve gerçek dünya senaryosuna uygun güvenlik kamera görüntüleri kullanılarak yapılan testlerde yüksek metrik başarımlar elde etmiş ve düşük çözünürlüklü yüz görüntülerinden, referans görüntüye uygun bir biçimde, yüksek çözünürlüklü görüntüler elde edilmesi konusunda etkili olduğu görülmüştür.

Özet (Çeviri)

In today's world, security cameras have found extensive applications across a variety of domains, ranging from public and military settings to industrial facilities, workplaces, and traffic monitoring. These systems are primarily employed for critical purposes such as ensuring security and public order, preventing criminal activities, and collecting evidence, in addition to being utilized in diverse areas such as industrial work tracking and production line management. However, the widespread deployment of security systems does not necessarily equate to enhanced security, as many existing security cameras operate at low resolution and detail. Consequently, image quality significantly deteriorates, particularly at greater distances and under low-light conditions. Updating existing security systems with next-generation cameras equipped with high-resolution recording sensors presents both a costly and time-consuming challenge. Instead, software-based image enhancement provides a more scalable solution in terms of both cost and time. Software enhancement techniques can be applied to existing low-resolution systems to achieve substantial improvements in image quality, thereby modernizing systems without necessitating expensive hardware upgrades. Currently, deep learning-based super-resolution architectures, which represent a new trend in image processing, are increasingly being adopted for enhancing camera images. Such software-based approaches offer a more flexible and economical solution for renewing security systems, presenting an attractive alternative to hardware-based solutions. Super-resolution (SR) methods, which focus on upsampling images while preserving their details and sharpness, are being explored within the field of digital image processing. Super-resolution techniques are employed in various applications, including enhancing image quality in photographs or videos, improving the resolution of medical imaging devices such as magnetic resonance imaging (MRI) and computed tomography (CT), and refining satellite images to achieve greater clarity and detail. In the context of security cameras, low-resolution images captured under conditions laden with artifacts such as low light, noise, and blur complicate face recognition and detection, thereby diminishing the performance of algorithms designed for this purpose. In such scenarios, the development of super-resolution techniques aimed at enhancing the effectiveness of security cameras and clarifying suspicious faces in low-resolution images holds significant promise. This study employs deep learning-based super-resolution techniques to restore low-resolution camera images and enhance their resolution for improved usability. Super-resolution methods facilitate the reconstruction of low-resolution images at higher resolutions and with greater detail. These techniques enable the upsampling of low-resolution images while maintaining their details and sharpness. Notably, images captured by older low-resolution security cameras are restored and upsampled, thereby enhancing the visibility of individuals within the image through super-resolution methods. This research aims to contribute to the literature advocating for the enhancement of security systems through super-resolution techniques and to further advance super-resolution architectures and deep learning-based methodologies for camera image analysis within the field of forensic informatics. In this research, deep learning architectures serve as the foundation for achieving super-resolution. While numerous image scaling techniques based on interpolation and reconstruction exist in image processing, deep learning-based super-resolution techniques demonstrate superior performance compared to traditional methods. Specifically, CNN, GAN, and ViT-based approaches have emerged as pioneering methods in this domain by effectively restoring details in low-resolution images. Consequently, this study focuses on deep learning-based SR techniques to restore and upsample lost details in low-resolution face images captured by security cameras, thereby facilitating the detection of suspicious individuals. This study proposes a VNet architecture designed to transform low-resolution face images obtained from real-world camera footage into high-quality, detailed images. The VNet architecture utilizes a deep learning-based convolutional network to convert low-resolution face images into high-resolution, detailed representations. Through the employed encoder-decoder structure, the image is upsampled while preserving image details and restoring lost regions. In studies concerning the super-resolution or upsampling of face images, the quality of the resultant image, high metric performances, and visual enhancements are often prioritized, while fidelity in terms of identity remains a secondary concern. To address this issue, the VNet architecture incorporates identity loss feedback from a pre-trained FaceNet model as the loss function, in conjunction with mean squared error; thus, a model is proposed that harmonizes high metric performances and visual improvements without compromising the output image's inherent similarity to the original. In this thesis, the proposed VNet network was initially trained using the VGGFace2 dataset. The VGGFace2 dataset proved beneficial for enabling the network to learn fundamental features due to its broad coverage and inclusion of face images from individuals of various ethnic backgrounds, ages, and professions, captured under diverse poses and lighting conditions. However, since this dataset is general-purpose and predominantly consists of frontal face images, the model obtained as a result of training was unable to achieve sufficient success in improving faces in real-world security camera images, which is the main purpose of the thesis. Therefore, this and similar datasets remain incompatible both for video images and from the perspective of security cameras. Factors such as how purpose-oriented the dataset used in training is, the diversity of examples in the dataset, and the presence of a sufficient number and quality of examples are critical to the success of deep learning models. For this reason, the ChokePoint dataset was used as a second dataset in the study. This dataset consists of video frames extracted from videos recorded by cameras placed at various checkpoints. This dataset was preferred because people pass the cameras at a natural angle and is more suitable for real-world security camera scenarios. A hybrid approach was adopted by using multiple datasets for the training of the developed model. First, the training with the VGGFace2 dataset ensured that the network generally recognizes the general structure of face images, facial components, and textural details. At this stage, the obtained weights were used to continue the training of the network with the ChokePoint dataset. During this process, the ChokePoint dataset significantly improved the model's performance in improving face images from security cameras, and after this second training stage, the model became more suitable for camera systems. In the super-resolution tests performed, the VNet architecture achieved high metric performances in various face image datasets such as CelebA, UTKFace, FEIFace, and MultiPie, and proved effective in obtaining realistic and high-quality images from low-resolution face images. Looking at the visual test outputs, in tests based on quadrupling the image resolution, VNet showed a performance of sampling in accordance with the original image in restoring missing eyes, mouth, nose and other facial components in the distorted image; it succeeded in repairing and upsampling blurred, noisy and distorted textures. This study aims to contribute to the literature on improving security systems with super-resolution techniques and to further develop super-resolution architectures and deep learning-based techniques for camera image analysis in the field of forensic informatics.

Benzer Tezler

  1. Düşük çözünürlüklü yüz görüntülerinin yerel zernike momentleri yöntemi ile sınıflandırılması

    Classification of the low resolution face images by local zernike moments method

    TOLGA ALASAĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN

    DOÇ. DR. MUSTAFA ERSEL KAMAŞAK

    YRD. DOÇ. DR. SERAP KIRBIZ

  2. Hareketli görüntülerde gerçek zaman yüz tanıma yaklaşımları

    Real time face recognition aproach at moving images

    GÖKHAN SAĞLAM

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Elektrik ve Elektronik MühendisliğiZonguldak Karaelmas Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. DR. RIFAT HACIOĞLU

  3. Learning weights of losses on multiscale in crowd counting

    Kalabalık sayımında çoklu ölçek kayıplarının ağırlılarının öğrenilmesi

    DERYA UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  4. Gerçek zamanlı güvenlik kamerası videolarının insan tabanlı özetlenmesi

    Human based real time surveillance video summarization

    M. SAİD AYDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. M. ELİF KARSLIGİL

  5. Güvenlik sistemlerinde kayıp nesne tespiti

    Removed object detection in security systems

    NAGEHAN ÇAPA

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik MühendisliğiGebze Teknik Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ KÖKSAL HOCAOĞLU