Pekiştirmeli öğrenme ile yüz görüntüsünün yüksek çözünürlükte elde edilmesi
High resolution facial image acquisition with reinforcement learning
- Tez No: 960019
- Danışmanlar: DR. ÖĞR. ÜYESİ BURHAN BARAKLI
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Sakarya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 163
Özet
Pekiştirmeli öğrenme ile yüz görüntüsünün yüksek çözünürlükte elde edilmesini amaçlayan çalışma, düşük çözünürlüklü yüz görüntülerinin yüksek çözünürlüklü hale getirilmesi sürecinde derin pekiştirmeli öğrenme (DRL) ve artık içinde artık yoğun bloklar (RRDB) tabanlı bir yöntemi bir araya getiren yenilikçi bir yaklaşım önermektedir. Günümüzde yüz süper çözünürlüğü (FSR), biyometrik güvenlik, yüz tanıma sistemleri, adli bilişim, sağlık sektörü, dijital medya ve eğlence endüstrisi gibi birçok kritik alanda büyük bir öneme sahiptir. Düşük kaliteli yüz görüntülerinin iyileştirilmesi, özellikle güvenlik kameraları, eski fotoğraflar ve düşük çözünürlükte çekilmiş dijital görüntüler gibi çeşitli kaynaklardan elde edilen verilerin analizinde kritik bir gereklilik haline gelmektedir. Mevcut süper çözünürlük teknikleri, büyük ölçüde evrişimsel sinir ağları (CNN), üretken çekişmeli ağlar (GAN) ve derin öğrenme tabanlı yöntemlere dayanmaktadır. Ancak yöntemlerin çoğu, yüz görüntülerinin belirli bölgelerinde meydana gelen detay kayıplarını dikkate almadan, tüm görüntüyü eşit şekilde işleyerek iyileştirme yapmaktadır. Böylece yüz görüntülerinin belirli kritik bölgelerinde detay kaybı oluşabilmekte ve genel görsel bütünlük bozulabilmektedir. Önerilen çalışmada yüz görüntülerinin önemli bölgeleri belirlenerek seçilen parçaların iteratif olarak iyileştirilmesini sağlayan, pekiştirmeli öğrenme tabanlı bir dikkat mekanizması ile desteklenmiş süper çözünürlük modeli geliştirilmiştir. Önerilen model, yüz görüntülerinde hangi bölgelerin iyileştirilmesi gerektiğini öğrenen bir mekanizma kullanarak, süper çözünürlük problemini dinamik bir süreç haline getirmektedir. Geleneksel yöntemler tüm yüz görüntüsüne aynı şekilde yaklaşarak detay iyileştirmeleri yapmaya çalışmaktadır. Önerilen model yüz görüntüsündeki farklı bölgelerin farklı seviyelerde detaylandırılması gerektiğini öğrenen bir karar alma sürecine sahiptir. Modelin dikkat mekanizması, yüz görüntüsünde belirli bölgeleri iteratif olarak seçmekte ve her iterasyonda bu bölgelerin süper çözünürlük işlemiyle yeniden yapılandırılmasını sağlamaktadır. Süreç, belirlenen her yeni yüz bölgesinin iyileştirilmesi ve önceki iterasyonlarda iyileştirilmiş bölgelerle bütünleşerek yüz görüntüsünün küresel yapısını koruması ile devam etmektedir. Önerilen modelin temel bileşenlerinden biri pekiştirmeli öğrenme tabanlı stratejik parça seçim mekanizmasıdır. Mekanizma yüz görüntüsündeki kritik detayları belirleyerek, modelin hangi bölgelerin daha fazla iyileştirilmesi gerektiğini anlamasını sağlamaktadır. Geleneksel süper çözünürlük yöntemlerinde görüntüler bütün olarak işlenirken, önerilen model dikkat mekanizmasını kullanarak her iterasyonda belirli bir yüz bölgesine odaklanmakta ve iyileştirme işlemi gerçekleştirmektedir. Model her adımda yüz görüntüsündeki eksik detayları analiz edebilme yeteneğine ulaşmaktadır. Model iyileştirilmesi gereken bölgeleri belirler ve RRDB tabanlı bir süper çözünürlük ağı ile bu bölgeleri detaylandırarak görüntüye geri entegre etmektedir. Modelin buradaki süreci, her iterasyonda yeni bir yüz bölgesinin seçilmesi ve iyileştirilmesi ile devam etmektedir. Amaç iyileştirilmiş yüksek çözünürlüklü bir yüz görüntüsü elde etmektir. Modelin en büyük yeniliklerinden biri stokastik eylem seçimi mekanizmasıdır. Geleneksel süper çözünürlük yöntemleri deterministik (önceden belirlenmiş) kurallara göre hareket ederek görüntü iyileştirme işlemlerini yürütmektedir. Önerilen model, hangi yüz bölgesinin iyileştirileceğine dair seçimleri stokastik (olasılıklı) bir süreç ile karar vermektedir. Stokastik süreç, modelin her görüntüye özgü en iyi iyileştirme stratejisini öğrenmesine olanak tanımaktadır. Stokastik eylem seçimi sayesinde model, farklı yüz yapılarında en kritik detayları belirleyerek her bir görüntüye özel bir iyileştirme stratejisi oluşturabilmektedir. Böylece, model sabit bir iyileştirme algoritması yerine her yüz görüntüsünün farklı gereksinimlerine göre dinamik olarak şekillenebilen bir süper çözünürlük yöntemi sunmaktadır. Modelin süper çözünürlük aşaması, artık içinde artık yoğun bloklar (RRDB) tabanlı bir ağ kullanılarak gerçekleştirilmektedir. RRDB yapısı yoğun bağlantılar ve artık öğrenme mekanizmaları sayesinde düşük çözünürlüklü yüz görüntülerindeki eksik detayları etkili bir şekilde geri kazandırmaktadır. Her iterasyonda model, seçilen yüz bölgesinin detaylarını artırarak yüksek çözünürlüklü hale getirmektedir. Ardından seçilen bölgeyi düşük çözünürlüklü yüz görüntüsüne entegre etmektedir. Böylece, yüzün hem genel yapısı korunmakta hem de en önemli detayların iyileştirilmesi sağlanmaktadır. Modelin başarımı yüz görüntüleri veri setlerinden yaygın olarak kullanılan LFW, CelebA, BioID ve PubFig veri setleri üzerinde test edilerek değerlendirilmektedir. Sonuçlar modelin mevcut süper çözünürlük yöntemlerine kıyasla hem görsel hem de sayısal anlamda üstün performans sergilediğini göstermektedir. Özellikle PSNR (Peak Signal-to-Noise Ratio) ve SSIM (Structural Similarity Index Measure) gibi metrikler kullanılarak yapılan analizlerde, modelin yüz görüntülerindeki detayları koruma ve küresel yapıyı iyileştirme konusunda oldukça başarılı olduğu görülmektedir. PSNR, iki görüntü arasındaki hata seviyesini ölçen bir metrik olup, düşük çözünürlüklü görüntü ile yüksek çözünürlüklü tahmin edilen görüntü arasındaki farkın ne kadar küçük olduğunu sayısal olarak ifade etmektedir. Daha yüksek PSNR değerleri daha düşük hata oranını ve dolayısıyla görüntünün yüksek çözünürlüğe daha yakın olduğunu göstermektedir. Ancak PSNR metriği tek başına bir görüntünün kalitesini tam olarak ifade etmekte yetersiz kalabilmektedir. Dolayısıyla süper çözünürlük gibi yüksek düzeyde görsel detay gerektiren uygulamalarda SSIM metriği ile desteklenmesi kritik bir önem taşımaktadır. SSIM, yalnızca pikseller arasındaki doğrudan farkı değil aynı zamanda görüntüdeki yapısal benzerlikleri, parlaklık, kontrast ve kenar detaylarını da göz önünde bulundurarak görüntü kalitesini değerlendiren bir ölçüttür. İnsan görsel algısı mutlak piksel farklarından ziyade yapısal bilginin korunmasına daha duyarlı olduğu için SSIM metriği süper çözünürlük değerlendirmelerinde en kritik kalite ölçütlerinden biri olarak kabul edilmektedir. Özellikle yüz görüntülerinde gözler, burun, ağız gibi kritik bölgelerin detaylarının korunması süper çözünürlük başarısını belirleyen en önemli faktörlerden biridir. Çalışmada önerilen model, hem PSNR açısından düşük hata oranına sahip olmasıyla hem de SSIM değeri yüksek çıkacak şekilde yüzün küresel yapısını koruyarak detayları iyileştirmesiyle mevcut süper çözünürlük yöntemlerine kıyasla üstün bir performans sergilemektedir. Özellikle geleneksel yöntemlerle üretilen süper çözünürlüklü yüz görüntülerinde sıkça karşılaşılan bulanık kenarlar, yapay detay ekleme ve yüzün doğal yapısının bozulması gibi sorunlar, önerilen modelin dikkat mekanizması ve iteratif süper çözünürlük yaklaşımı sayesinde minimize edilmiştir. SSIM değerlendirmeleri modelin yüz bütünlüğünü koruyarak, detayları en iyi şekilde iyileştirdiğini ve insan algısına daha uygun sonuçlar ürettiğini kanıtlamaktadır. Önerilen çalışma yüz süper çözünürlüğü alanında pekiştirmeli öğrenme tabanlı süper çözünürlük yöntemlerinin uygulanabilirliğini artırarak, biyometrik güvenlik, dijital medya, adli bilişim ve gözetim sistemleri gibi birçok alanda yenilikçi uygulamalar sunmaktadır. Model, yalnızca yerel detayları değil aynı zamanda küresel yapı bütünlüğünü de dikkate alarak daha gerçekçi ve doğal sonuçlar üretmektedir. Özellikle güvenlik sistemleri, eski fotoğrafların iyileştirilmesi, düşük kaliteli güvenlik kamerası görüntülerinin netleştirilmesi ve biyometrik doğrulama gibi alanlarda modelin önemli bir katkı sunacağı öngörülmektedir. Modelin performansını daha da artırmak için çeşitli geliştirmeler yapılması olasıdır. Öğrenme oranının adaptif olarak ayarlanması, modelin farklı veri setleri için en iyi sonucu vermesine olanak sağlayabilir. Bunun yanı sıra, üretken çekişmeli ağlar (GAN) ve dönüştürücü tabanlı modeller (Transformer-Based Models) gibi farklı derin öğrenme teknikleriyle modelin hibrit bir yapıya entegre edilmesi, süper çözünürlük başarısını daha da artırabilir. Ayrıca, daha geniş veri setleri üzerinde testler yapılarak modelin genelleme yeteneği artırılabilir ve gerçek dünya uygulamalarına daha uygun hale getirilebilir. Sonuç olarak önerilen çalışma, yüz süper çözünürlüğü problemini çözmek için derin pekiştirmeli öğrenme ve artık içinde artık yoğun bloklar (RRDB) tabanlı bir model önermektedir. Stratejik parça seçimi mekanizması ile yüz görüntüsünün en kritik bölgeleri belirlenmekte, detaylar iteratif olarak iyileştirilmekte ve küresel yapı bütünlüğü korunmaktadır. Modelin geniş kullanım alanı ve üstün başarımı göz önüne alındığında yüz süper çözünürlüğü ve görüntü iyileştirme alanında önemli bir ilerleme sunduğu söylenebilmektedir.
Özet (Çeviri)
This study proposes an innovative approach that combines deep reinforcement learning (DRL) and a residual dense blocks in residuals (RRDB) based method to convert low-resolution face images into high-resolution ones. Nowadays, facial super resolution (FSR) is of great importance in many critical areas such as biometric security, face recognition systems, forensics, healthcare, digital media and entertainment industry. The enhancement of low-quality facial images is becoming a critical requirement, especially in analyzing data from a variety of sources such as surveillance cameras, old photographs, and low-resolution digital images. Existing super-resolution techniques are largely based on convolutional neural networks (CNN), generative adversarial networks (GAN) and deep learning-based methods. However, most of the methods do not take into account the loss of detail in certain regions of the face images and process the whole image equally. Thus, detail loss may occur in certain critical regions of the face images and the overall visual integrity may be compromised. In the proposed work, we develop a super-resolution model supported by a reinforcement learning-based attention mechanism that identifies important regions of facial images and iteratively enhances the selected parts. The proposed model makes the super-resolution problem a dynamic process by using a mechanism that learns which regions of the face images need to be enhanced. Traditional methods approach the whole face image in the same way and try to improve the detail. The proposed model has a decision-making process that learns that different regions in the face image should be enhanced at different levels of detail. The attention mechanism of the model iteratively selects certain regions in the face image and reconstructs them with a super-resolution process at each iteration. The process continues by enhancing each new face region and integrating it with the regions enhanced in the previous iterations to maintain the global structure of the face image. One of the key components of the proposed model is a reinforcement learning-based strategic part selection mechanism. By identifying critical details in the face image, the mechanism enables the model to understand which regions need further enhancement. While traditional super-resolution methods process images as a whole, the proposed model uses the attention mechanism to focus on a specific facial region and perform enhancement at each iteration. At each step, the model achieves the ability to analyze the missing details in the face image. The model identifies the regions that need to be improved and integrates them back into the image by detailing these regions with an RRDB-based super-resolution network. The process of the model here continues with the selection and enhancement of a new face region in each iteration. The goal is to obtain an improved high-resolution face image. One of the major innovations of the model is the stochastic action selection mechanism. Traditional super-resolution methods perform image enhancement by acting according to deterministic (predetermined) rules. The proposed model uses a stochastic (probabilistic) process to decide which facial region to enhance. The stochastic process allows the model to learn the best enhancement strategy for each image. Thanks to the stochastic action selection, the model is able to identify the most critical details in different facial structures and create an enhancement strategy specific to each image. Thus, instead of a fixed enhancement algorithm, the model provides a super-resolution method that can be dynamically shaped according to the different requirements of each face image. The super-resolution phase of the model is realized using a residual dense blocks within residuals (RRDB) based network. The RRDB structure efficiently recovers missing details in low-resolution face images through dense connections and residual learning mechanisms. In each iteration, the model increases the details of the selected face region to high resolution. It then integrates the selected region into the low-resolution face image. Thus, the overall structure of the face is preserved and the most important details are enhanced. The performance of the model is evaluated by testing it on the widely used face image datasets LFW, CelebA, BioID and PubFig. The results show that the model outperforms existing super-resolution methods both visually and numerically. In particular, the analysis using metrics such as PSNR (Peak Signal-to-Noise Ratio) and SSIM (Structural Similarity Index Measure) shows that the model is very successful in preserving the details in the face images and improving the global structure. PSNR is a metric that measures the level of error between two images and numerically expresses how small the difference between the low-resolution image and the high-resolution predicted image is. Higher PSNR values indicate a lower error rate and hence the image is closer to high resolution. However, the PSNR metric alone may not be sufficient to fully express the quality of an image. Therefore, in applications that require a high level of visual detail, such as super resolution, it is critical to support it with the SSIM metric. SSIM is a metric that evaluates image quality by considering not only the direct difference between pixels but also the structural similarities, brightness, contrast and edge details in the image. Since human visual perception is more sensitive to the preservation of structural information rather than absolute pixel differences, the SSIM metric is considered one of the most critical quality measures in super-resolution evaluations. Especially in face images, preserving the details of critical regions such as eyes, nose and mouth is one of the most important factors determining the super-resolution success. The model proposed in this study shows a superior performance compared to the existing super-resolution methods by having a low error rate in terms of PSNR and improving the details by preserving the spherical structure of the face with a high SSIM value. In particular, problems such as blurred edges, artificial detail addition and distortion of the natural structure of the face, which are frequently encountered in super-resolution face images produced by conventional methods, are minimized thanks to the attention mechanism and iterative super-resolution approach of the proposed model. SSIM evaluations prove that the model preserves the integrity of the face, enhances the details in the best way and produces results that are more suitable for human perception. The proposed work improves the applicability of reinforcement learning-based super-resolution methods in the field of face super-resolution and offers innovative applications in many areas such as biometric security, digital media, forensics and surveillance systems. The model produces more realistic and natural results by taking into account not only local details but also global structural integrity. The model is expected to make a significant contribution especially in areas such as security systems, enhancement of old photographs, clarification of poor quality security camera images and biometric verification. Various enhancements are possible to further improve the performance of the model. An adaptive adjustment of the learning rate could allow the model to perform optimally for different datasets. In addition, integrating the model into a hybrid structure with different deep learning techniques such as generative adversarial networks (GAN) and transformer-based models can further improve the super-resolution performance. Furthermore, tests on larger datasets can be conducted to increase the generalization capability of the model and make it more suitable for real-world applications. In conclusion, the proposed work proposes a model based on deep reinforcement learning and residual dense blocks within residuals (RRDB) to solve the face super-resolution problem. With a strategic part selection mechanism, the most critical regions of the face image are identified and the details are iteratively improved while maintaining the global structure integrity. Considering the wide range of applications and superior performance of the model, it can be said that it offers a significant advance in the field of facial super-resolution and image enhancement.
Benzer Tezler
- Eritrosit envanter yönetiminde derin pekiştirmeli öğrenme
Deep reinforcement learning in red blood cell inventory management
AHMED ARİF ŞENGİL
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Medipol ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN TOZAN
DR. ÖĞR. ÜYESİ KEVSER BANU KÖSE
- Engaging human-robot interaction with batch reinforcement learning
Kayıtlı veriden pekiştirmeli öğrenme yoluyla insan robot etkileşiminde kullanıcı ilgisinin eniyilenmesi
NUSRAH HUSSAIN
Doktora
İngilizce
2020
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ENGİN ERZİN
PROF. DR. YÜCEL YEMEZ
- Robust trajectory optimization of constrained re-entry flight via stochastic collocation based ensemble pseudospectral optimal control
Stokastik kolokasyona dayalı ensemble pseudospectral optimal kontrol ile kısıtlı yeniden giriş uçuşunun gürbüz yörünge eniyilemesi
AKAN SELİM
Yüksek Lisans
İngilizce
2022
Astronomi ve Uzay Bilimleriİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM OZKOL
- Development of artificial intelligence based semi-autonomous control system to assist decision making of reactor operators
Reaktör operatörlerinin karar vermesini desteklemek için yapay zekâ tabanlı yarı-otonom kontrol sisteminin geliştirilmesi
CEYHUN YAVUZ
Doktora
İngilizce
2025
Nükleer Mühendislikİstanbul Teknik ÜniversitesiEnerji Bilim ve Teknoloji Ana Bilim Dalı
DOÇ. DR. SENEM ŞENTÜRK LÜLE
- 5. sınıf fen bilimleri dersi ışık ünitesinde padlet dijital pano uygulaması ile desteklenmiş ters yüz sınıf modelinin akademik başarı ve tutuma etkisi
The effect of flipped classroom model supported by padlet digital board application on academic achievement and attitude in the 5th grade science lesson light unit
ELİF AZAKLI ŞAHİN
Yüksek Lisans
Türkçe
2023
Eğitim ve ÖğretimOrdu ÜniversitesiMatematik ve Fen Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ELİF ÇİL