Single-frame and multi-frame super-resolution on remote sensing images via deep learning approaches
Derin öğrenme yaklaşımlarıyla uzaktan algılama görüntülerinde tek çerçeve ve çok çerçeve süper çözünürlük
- Tez No: 753612
- Danışmanlar: PROF. DR. ELİF SERTEL
- Tez Türü: Doktora
- Konular: İletişim Bilimleri, Communication Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: İletişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
- Sayfa Sayısı: 141
Özet
Önemli bir bilgisayarla görüş görevi olarak, süper görüntü çözünürlüğü (SR), uzaktan algılama (RS), tıbbi görüntüleme, video gözetimi ve biyometride yaygın olarak uygulanmaktadır. SR Görüntü, düşük çözünürlüklü (LR) bir görüntü kümesinden yüksek çözünürlüklü (HR) bir görüntü oluşturma tekniğidir. SR Görüntü, düşük çözünürlüklü görüntülerin mekansal, spektral veya zamansal çözünürlüğünü geliştirmek amacına hizmet etmektedir. Son yıllarda, birçok araştırmacı, SR algoritmalarının performansının iyileştirilmesine büyük katkılarda bulunmuşlardır. Bu tekniklerden biri ağların derinliğini artırmaktır. Ancak, bu durum büyük miktarda hesaplama ve bellek tüketimini ortaya çıkarmaktadır. Bu nedenle, karmaşık ağların performansını ve eğitim sürecini iyileştirmek için bazı mekanizmalar (örn. basamaklı ağlar, dikkat mekanizması, geri yansıtma) önerilmektedir. Uydu görüntüleri tarım, arazi örtüsü sınıflandırması, bina çıkarımı, deprem tahmini ve nesne tespiti gibi farklı uygulamalar için yaygın olarak kullanılmaktadır. Ancak, optik ve sensör teknolojisindeki sınırlamalar ve uydulardaki ekipmanların daha da iyileştirilmesi için yüksek maliyetler o söz konusu olmaktadır. Dünya gözlem uydularının mekansal ve spektral çözünürlüğü genellikle istenen yüksek seviyede olmadığından uydu görüntülerinin mekansal ve spektral kalitesini iyileştirmek için yazılım tabanlı algoritmalar geliştirmek önemlidir. Bu tez çalışmasında, derin öğrenme (DL) yöntemlerini kullanarak optik uydu görüntülerinin mekansal çözünürlüğünün artırılması amaçlanmıştır. Genel olarak, SR görüntüleri tek çerçeveli SR görüntü ve SR çok çerçeveli görüntü olmak üzere iki kategoride sınıflandırılmaktadır.: Bir LR görüntü setinden bir HR görüntüsü oluşturmayı amaçlayan tek çerçeveli SR görüntülerden, orijinal RS görüntülerinden daha iyi mekansal ayrıntılar sağlamak için çözünürlükleri iyileştirebilir. Çok çerçeveli SR görüntü ile , farklı koşullar ve farklı açılar altında elde edilebilen birden çok LR görüntüsünden bir HR görüntüsü oluşturmaya çalışılır. Son yıllarda, bu konuda çalışan birçok araştırmacı, iki yönü içeren SR görüntü algoritmalarının performansının iyileştirilmesine (1) PSNR'nin (Peak-Signal-Noise-Ratio) performansının iyileştirilmesi; (2) görüntülerin algısal kalitesinin iyileştirilmesi bağlamında büyük katkılarda bulunmuşlardır. Bazı algoritmalar ile yüksek bir PSNR elde edilmiştir. Ancak, bunlar insan algısı için çok daha önemli olan algısal kalite bakımından düşük bir seviyeye sahiptir. Bu nedenle, bu tez çalışmasında aşağıda sıranan hedefler için çalışılmıştır. (1) Tek çerçeve ve çok çerçeve RS görüntülerinde SR'nin görsel kalitesini iyileştirmek için algısal odaklı bir yaklaşımı keşfetmek; (2) Tek çerçeveli ve çok çerçeveli RS görüntüleri süper çözünürlük için, Üretken Çelişki Ağı (GAN) tabanlı bir modeli, paternin bozulmasını dikkate almaksızın çok ölçekli çalışmak geliştirmek; (3) SR görüntünün küçük bir yama yerine rastgele bir boyutunu oluşturabilen bir görüntü birleştirme yöntemini geliştirmek. Bu tez ile öncelikletek çerçeveli ve çok çerçeveli RS görüntüleri için SR yöntemlerine genel bir bakış sunmaktadır. Tek çerçeveli RS görüntüsü SR yöntemleri, kontrollü ve kontrolsüz yöntemler olarak sınıflandırılır. Kontrollü yöntemler temel olarak Evrişimli Sinir Ağları (CNN) tabanlı yöntemleri, GAN tabanlı yöntemleri, dikkat tabanlı yöntemleri ve Geri projeksiyon tabanlı yöntemleri içerir. Ayrıca, kendi kendine dikkat, kanal dikkati, mekansal dikkat, karma yüksek sıralı dikkat (MHOA), yerel olmayan dikkat (NLA) ve yerel olmayan seyrek dikkat (NLSA) gibi yaygın olarak kullanılan dikkat mekanizmaları da tanıtılmaktadır. Ayrıca derin öğrenme modelinin eğitiminin önemli bir parçası olarak, piksel bazında kayıp, algısal kayıp, çekişmeli kayıp ve döngü tutarlılık kaybını içeren kayıp fonksiyonu sunulmaktadır. Tek çerçeveli RS görüntüsü SR için, bu tezde dikkat bazlı CNN tabanlı bir SR yöntemi önerilmiştir. CNN tabanlı algoritmalar bilgisayarlı görüş görevlerinde olağanüstü başarılar elde etmiş olsa da, düşük çözünürlüklü girdilerde ve özelliklerde bulunan çokça düşük frekanslı bilgi, geleneksel CNN yöntemlerinde kanallar arasında eşit olarak ele alınır. Dikkat temelli algoritmalar, SR görüntüsü dahil olmak üzere zorlu görevlerde bilgilendirici özelliklerin çıkarılmasında hayati bir rol oynamaktadır. Dikkat mekanizmasının uygulanmasıyla, önerilen CNN tabanlı yöntem, farklı kanallar arasındaki daha derin ilişkileri daha fazla öğrenebilir. Dikkat modülünü, artık bloklarla basitçe entegre etmek yerine, Artık Gruplar (RG) arasındaki ilişkileri daha fazla öğrenmek için bir Katman Dikkat Modülü (LAM) ve Mekansal Dikkat Modülü (SAM) önerilmiştir. Ayrıca, süper çözülmüş görüntülerin algısal kalitesini iyileştirmek için eğitim sürecinde algısal kayıp işlevi benimsenmiştir ve modelin genelleme yeteneğini geliştirmek için Rastgele aşağı örnekleme kullanılmıştır. İkinci olarak, tek çerçeve RS görüntüleri için dikkat GAN tabanlı süper çözünürlük yöntemi araştırılmıştır. CNN tabanlı yöntemler, görüntü süper çözünürlüklü görevinde PSNR/SSIM performansının iyileştirilmesine büyük katkı sağlamıştır. Bununla birlikte, bu yöntemler, gerçekçi ayrıntılardan yoksun, aşırı düzgün ve bulanık görüntüler oluşturmaya eğilimlidir. GAN ile, normal CNN tabanlı yöntemlerden daha gerçekçi görüntüler üretebilir ve tek görüntü süper çözünürlüklü (SRGAN, ESRGAN, EEGAN) ile tanıştırılmıştır. Geleneksel evrişimli GAN'lar, düşük çözünürlüklü özellik haritalarında yalnızca mekansal olarak yerel noktaların bir işlevi olarak yüksek çözünürlüklü ayrıntılar üretir. Dikkat mekanizması, özellik haritalarındaki uzun menzilli bağımlılıkları doğrudan modellemek için hem üreticiye hem de ayırıcıya daha fazla güç verir. Dikkat mekanizmasını uygulayarak, ağ, dikkati sadece mekansal komşuluktan ziyade renk ve doku benzerliğine göre tahsis edebilir. Bu nedenle, ESRGAN'a dayalı olarak, tek çerçeveli RS görüntüsü SR için GAN dikkat tabanlı bir yöntem kullanılır. ESRGAN temel olarak iki yönden geliştirilmiştir: (1) daha fazla atlama bağlantısı ekleyerek artık blokların mimarisini daha da geliştirmek; (2) daha fazla özellik çıkarımı için artık bloklara dikkat modülleri eklemek. Ayrıca, hava fotoğrafları veya düşük çözünürlüklü ve orta çözünürlüklü uydu görüntüleri üzerinde çalışmak yerine, Pleiades tarafından elde edilen çok yüksek çözünürlüklü (VHR) uydu görüntüleri ve Worldview-3'e odaklanılmıştır. Pleiades için, Worldview-3, sırasıyla 2m ve 1.24m'dir. Ayrıca, dikkat CNN tabanlı yöntem için, yöntemi 2, 4 ve 8 ölçek faktörü ile Pleiades ve Worldview-3 veri setleri üzerinde değerlendirilmiştir. Dikkat tabanlı GAN yöntemi için, yöntemi 4 ölçek faktörü ile Pleiades ve Worldview-3 veri kümeleri üzerinde değerlendirme yapılmıştır. Deneysel sonuçlar, dikkat temelli yöntemin hem nicel hem de nitel olarak algısal olarak daha iyi sonuçlar sağlayabileceğini göstermektedir. Üçüncü olarak, çok çerçeveli RS görüntüsü SR için dikkat tabanlı GAN bir yöntem önerilmiştir. İlk olarak, generatöre bir dikkat mekanizması sunulmuş ve daha iyi zamansal bilgi çıkarımı için her bir çerçeve üzerinde çalışan uzay tabanlı bir ağ önerilmiştir. İkinci olarak, daha iyi mekansal ve spektral bilgi çıkarımı için yeni bir dikkat modülü önerilmiştir. Üçüncü olarak, ayrımcının ayırt etme yeteneğini geliştirmek için dikkat temelli bir ayırımcı uygulanmıştır. Son olarak, SpaceNet7 veri kümesi ve Jilin-1 veri kümesinin deneysel sonuçları ile, önerilen yöntemin hem nicel hem de nitel olarak etkinliği ortaya konmuştur.
Özet (Çeviri)
As a quite significant computer vision task, image super-resolution (SR) has been widely applied in remote sensing (RS), medical imaging, video surveillance, and biometrics. Image SR aims to restore high-resolution (HR) images by enhancing the spatial, spectral, or temporal resolution of the low-resolution (LR) inputs. In recent years, great efforts have been made for improving the SR approaches. One of the approaches is to design deeper networks. Nevertheless, this greatly increases computation and memory consumption. As a result, some mechanisms (such as cascading networks, attention mechanisms, and back projection) are proposed to improve the performance and the training process of the complex networks. Satellite imagery can be seen in various fields, namely Land cover/Land use classification, road and building extraction, observation of climate, and earthquake prediction. However, in some cases, the resolution of satellite images can not meet the application requirements due to the technology and cost limitations during the satellite design; therefore, the improvement of image resolution might be necessary. Since it is not possible to upgrade the equipment onboard the launched satellite, the software-based SR algorithms are deserved to be explored in RS fields. This thesis aims to strengthen the spatial resolution of optical satellite imageries by using deep learning (DL) methods. Generally, image SR algorithms can be categorized as single-frame image SR (SFSR) and multi-frame image SR (MFSR). The inputs of the SFSR can be a single LR image. While multi-frame image SR aims to restore HR image by using multiple LR images, which can be obtained under different conditions and at different angles. Recently, great contributions have been made to improve the SR methods including two aspects: (1) increasing the value of PSNR (Peak-Signal-Noise-Ratio); (2) improving the image quality perceptually. Nevertheless, some algorithms obtain a high PSNR but with a low perceptual quality which is more important to human perception. Therefore, this thesis has the following objectives: (1) Explore a perceptual-driven approach to enhance the SR image quality visually on single-frame and multi-frame RS imageries; (2) Explore Generative Adversarial Network (GAN)-based models for single-frame and multi-frame RS imagery super-resolution task to fulfill the multi-scale problem and blind to the degradation model; (3) Explore an image fusion method that can generate an arbitrary size of the super-resolved image rather than a small patch. This thesis firstly gives an overview of single-frame and multi-frame RS image SR methods. The single-frame RS image SR methods are briefly classified into supervised and unsupervised methods. The former mainly includes Convolutional Neural Networks (CNN)-based, GAN-based, attention-based, and Back-projection based methods. In addition, the commonly used attention mechanisms including self-attention, channel attention, spatial attention, mixed high-order attention (MHOA), non-local attention (NLA), and non-local sparse attention (NLSA) are also introduced. Moreover, loss functions including pixel-wise loss, perceptual loss, adversarial loss, and cycle consistency loss are presented. For the single-frame RSISR, firstly, an attention CNN-based SR method is proposed. Although CNN-based algorithms have made outstanding achievements in computer vision tasks, the traditional CNNs methods treat the abundant low-frequency information included in the LR inputs equally across channels. Attention-guided algorithms play a vital role in the informative features extraction in various tasks including image SR. With the application of the attention mechanism, the proposed CNN-based method can further learn the deeper relationships among the different channels. Instead of simply integrating the attention module with the residual blocks, a Layer Attention Module (LAM) and Spatial Attention Module (SAM) are proposed to further learn the relationships among the Residual Groups (RG). Moreover, the perceptual loss function is adopted in the training process to enhance the generated image quality perceptually, and Random down-sampling is applied to strengthen the model's generalization ability. Secondly, an attention GAN-based super-resolution method is explored for the single-frame RS images. CNN-based methods have made great contributions to increasing the value of PSNR/SSIM. Nevertheless, the generated outputs tend to be overly smooth and blurry. GAN can generate more realistic images than normal CNN-based methods and has been introduced to single image super-resolution (SRGAN, ESRGAN, EEGAN). Standard GANs only function on spatially local points in LR feature maps. The attention mechanism can directly learn the long-range dependencies in the feature maps both in the generator and discriminator in a powerful way. By applying the attention mechanism, the network allocates attention based on the similarity of color and texture. Therefore, based on ESRGAN, an attention GAN-based method is for the single-frame RS image SR. The ESRGAN was mainly improved from two aspects: (1) we further improved the architecture of the residual blocks by adding more skip connections; (2) we add attention modules to the residual blocks for further feature extraction. Moreover, instead of working on aerial photographs or low-resolution and medium-resolution satellite images, we are focusing on the Very High-Resolution (VHR) satellite imageries, such as the Pleiades, and Worldview-3. The spatial resolutions of the multispectral images for the Pleiades, and Worldview-3 are 2m, and 1.24m, respectively. Furthermore, for the attention CNN-based method, we evaluated the method on the Pleiades and Worldview-3 datasets with scaling factors of 2, 4, and 8. For the attention GAN-based method, we evaluated the method on the Pleiades and Worldview-3 datasets with a scaling factor of 4. The experimental results show the attention-based method can provide better perceptual results both quantitatively and qualitatively. At last, we proposed an attention GAN-based method for the multi-frame RS image SR. Firstly, we introduced an attention mechanism to the Generator and proposed a space-based network that worked on every single frame for better temporal information extraction. Secondly, we proposed a novel attention module for better spatial and spectral information extraction. Thirdly, we applied an attention-based discriminator to enhance the discriminator's discriminative ability. Finally, the experimental results on the SpaceNet7 dataset and Jilin-1 dataset exhibit the superior of the proposed model both quantitatively and qualitatively.
Benzer Tezler
- Super resolution methods for remote sensing images
Uzaktan algılama görüntüleri için süper çözünürlük metotları
ÇAĞLAYAN TUNA
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- Super resolution on Linux televisions
Linux televizyonlarda süper çözünürlük
AHMET EGE MAHLEÇ
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÖZDE AKAR
- Comparison of single and multi frame super resolution reconstruction algorithms with analytical interpolation methods
Tek ve çok çerçeveli süper çözünürlük yöntemleriyle analitik aradeğerleme yöntemlerinin karşılaştırılması
HÜSEYİN ÖZDEMİR
Yüksek Lisans
İngilizce
2009
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
PROF. DR. BÜLENT SANKUR
- Single-image bayesian restoration and multi-image super-resolution restoration for b-mode ultrasound images using an accurate system model
B-mod ultrason görüntüleri üzerinde hassas sistem modeli kullanarak tek-görüntülü bayesçi onarma ve çok-görüntülü çözünürlük-üstü onarma
MİNE CÜNEYİTOĞLU ÖZKUL
Doktora
İngilizce
2019
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
PROF. DR. ÜNAL ERKAN MUMCUOĞLU
- Implementation and comparison of super resolutionalgorithms on embedded systems
Gömülü sistemler üzerinde süper çözünürlük algoritmalarınıngerçeklenmesi ve karşılaştırılması
METİN AKKIN
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MÜŞTAK ERHAN YALÇIN