Transfer learning based super resolution of aerial images and the effects of the super resolution on object detection
Öğrenme transferi temelli hava aracı görüntülerinin süper çözünürlüğü ve süper çözünürlüğün nesne tespitine etkileri
- Tez No: 784013
- Danışmanlar: DOÇ. DR. İLKAY ÖKSÜZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 64
Özet
Bilgisayarlı görü uygulamaları için veri kalitesi ve çözünürlüğü oldukça önemlidir. Süper çözünürlük, düşük rekonstrüksiyon hatası ile görüntü çözünürlüğünü yükseltmenin güçlü bir yöntemidir ve süper çözünürlüklü görüntüler düşük çözünürlüklü sürümlerine kıyasla orijinal görüntü sahnesi hakkında daha fazla bilgi içerirler. Bu sebepten ötürü süper çözünürlük veri kalitesinin önemli olduğu uygulamalarda bir ön işleme yöntemi olarak kullanılabilir. Çalışmamızın literatür taraması kısmında da detaylı olarak görülebileceği üzere literatürde birçok çalışma süper çözünürlüğü daha sonra yapılacak bir uygulama için ön işleme yöntemi olarak kullanmış ve bununla ilgili çalışmanın sonuçlarında iyileşme beklenmiştir. Nitekim öyle de olmaktadır ve süper çözünürlüklü görüntüler orijinal sahnelerden alınan düşük çözünürlüklü görüntü sürümlerine kıyasla veri kalitesini artırdığı için bilgisayarlı görü, görüntü tabanlı yapay zeka ve benzeri uygulamalarda tercih edilmektedir. Biz ise çalışmamızda hava araçları ile yakalanan görüntülere süper çözünürlük uygulamak adına öğrenme aktarımı yöntemiyle süper çözünürlük modelleri eğitmeyi amaçladık. Ek olarak eğittiğimiz modelleri süper çözünürlüğün hava araçları ile yakalanan görüntülerde nesne tespitine etkilerini analiz etmek üzere kullandık. Orijinal bir görüntü sahnesi kullanılarak oluşturulan süper çözünürlüklü bir görüntü düşük çözünürlüklü sürümüne kıyasla insan algısı için daha anlamlıdır ve bu sebeple nesne tespiti, medikal görüntü işleme, örüntü tanıma ve benzeri uygulamalarda avantaj sağlamaktadır. Bundan dolayı daha önce de belirttiğimiz üzere süper çözünürlüklü görüntüler düşük çözünürlüklü sürümleri göz önüne alındığında daha fazla bilgi içerebileceği için süper çözünürlük bilgisayarlı görü uygulamalarında bir ön işleme yöntemi olarak kullanılmaktadır. Çalışmamızda gözetleme maksadıyla hava araçları ile yakalanmış görüntüler için süper çözünürlük uygulamayı hedefledik. Bunun sebebi ise şudur. Gözetleme maksadıyla görüntü alınan hava araçlarında optik lensler ile belirli bir seviyede yakınlaştırma yeteneği bulunmaktadır. Ancak belirli bir bölgenin daha detaylı incelenmesi istendiğinde optik yakınlaştırma seviyesinin limiti ile sınırlı kalınır. Kalan bölüm için sadece en yakın komşu interpolasyonu, bikübik interpolasyon, Lanczos vb. yöntemler ile dijital yakınlaştırma yapılabilir. Dijital yakınlaştırma yapıldığında ise orijinal sahne ile kıyaslandığında görüntü kalitesinden ödün verilir. Bu durumda optik yakınlaştırma kalitesine yakın bir kalitede süper çözünürlük ile 2x, 4x, 8x vb. seviyelerde yakınlaştırma yapmak dijital yakınlaştırma yapmaktan algısal anlamda daha kaliteli sonuçlar üretebilir. Belirttiğimiz motivasyon ile süper çözünürlük uygulamak adına Türkçe adı ile Süper Çözünürlük Üretken Çekişmeli Ağ - Super Resolution Generative Adversarial Network (SRGAN) mimarisini kullandık. Birçok süper çözünürlük yönteminden biri de üretken çekişmeli ağların kullanılmasıyla yapılan süper çözünürlük uygulamalarıdır. SRGAN üretken çekişmeli ağ mimarileri üzerine inşa edilmiş üretken bir modelleme yöntemidir. Bilinen yapay sinir ağlarından farkı ise içerisinde birbiri ile yarışan üretici ve ayırıcı iki yapay sinir ağı bulunmasıdır. Çalışmamız üzerinden örnek verecek olursak üretici ağ düşük çözünürlüklü bir görüntüyü alıp yapay bir yüksek çözünürlüklü görüntü oluşturmaktadır. Ayırıcı ağ ise bu görüntünün gerçekten yapay mı yoksa yüksek çözünürlüklü orijinal bir görüntü mü olduğunu tespit etmeye çalışmaktadır ve bu tespit sonucuna göre hesaplanan hata ile üretici güncellenmektedir. Kısaca üretici ağ gerçeğe yakın yapay görüntüler üreterek ayırıcı ağı kandırmaya çalışmaktadır. Ayırıcı ağ ise gerçek ve yapay görüntüleri ayırt etmeye çalışmaktadır. Bu çekişmeli çalışma üretken çekişmeli ağ yöntemini güçlü bir yöntem yapmaktadır ve böylece gerçeğe oldukça yakın sonuçlar üretilebilmektedir. Bu çekişmenin gücünden faydalanan SRGAN çalışmamız için güvendiğimiz bir mimari olmuştur. Bu sebeple de çalışmamızda SRGAN mimarisini kullandık. Ayrıca çalışmamızda üretken bir model eğitmek için DIV2K veri setini kullandık ve öğrenme aktarımı yöntemi ile xView ve DOTA veri setleri için ayrı modeller eğittik. DIV2K veri seti orjinal SRGAN makalesinde de kullanılan ve birbirinden farklı 2K çözünürlükte çeşitli görüntüler içeren bir veri setidir. İçerisinde 800 eğitim, 100 doğrulama ve 100 test görüntüsü bulunmaktadır ve literatürde sıklıkla kullanılmaktadır. Çalışmamız hava araçlarından yakalanan görüntüler üzerine olacağından literatür taramasında açık erişimli hava aracı görüntüleri için veri seti araştırdığımızda en sık kullanılan 2 veri seti ile karşılaştık. Açık erişimli xView ve DOTA veri setleri çoğu dünya çevresindeki uydular ile yakalanmış görüntüler içermektedir. Literatür taramasını gerçekleştirdiğimiz 2021 yılında DOTA veri setinden bahseden açık erişimli makale sayısı 111, xView veri setinden bahseden açık erişimli makale sayısı ise 47 idi. Özellikle DOTA veri seti nesne tespiti için oluşturulmuş bir veri seti olduğundan içerisinde görüntüdeki nesnelerin yer aldığı etiket bilgileri de mevcuttur. Biz de bu etiket bilgileri ile DOTA için detaylı bir nesne tespiti testi yapma fırsatı bulduk. Detayları çalışmamızda mevcuttur. Kısaca, DIV2K ile ön eğitim yapılan SRGAN modeli kullanılarak öğrenme aktarımı yöntemi ile xView ve DOTA veri setleri için ayrı iki yeni model oluşturulmuştur. Öğrenme aktarımı yöntemini kullanmamızın sebebi ise DIV2K ile eğitilmiş model üzerinden hava araçları ile yakalanmış görüntüler için süper çözünürlük kalitesini artırmaktır. Çalışmamızda en önemli konulardan biri de kullanılan metriklerdir. Görüntü kalitesi için sıklıkla kullanılan PSNR, SSIM ve benzeri metrikler algısal kaliteyi ölçmekte yetersiz kalmaktadırlar. Bu durumdan orijinal SRGAN makalesinde de bahsedilmiştir. Algısal anlamda bikübik interpolasyonla kıyaslandığında çok daha kaliteli görseller üretebilen SRGAN, PSNR ve SSIM yöntemleri kullanılarak bikübik interpolasyonla kıyaslandığında çok daha kötü skorlar almaktadır. Ancak SRGAN sonucunun algısal anlamda yüksek kaliteli olduğu insan gözü ile bile rahatlıkla anlaşılmaktadır. Bu da PSNR ve SSIM gibi metriklerin algısal kaliteyi ölçmek adına yetersiz kaldığı anlamına gelmektedir. Daha iyi anlaşılması için tez içerisinde ilgili görselin incelenmesini tavsiye ediyoruz. PSNR ve SSIM gibi metriklerin algısal kaliteyi ölçememesi probleminden dolayı literatürde de insan algısı temel alınarak hazırlanan ve görüntülerin algısal kalitelerini ölçmeye çalışan farklı metrikler mevcuttur. Orjinal SRGAN makalesinde ise PSNR ve SSIM probleminden dolayı ortalama görüş skoru (Mean Opinion Score) hesaplanmıştır. Böylece görseller algısal kalitelerine göre bir puanlayıcı insan grubu ile puanlanmış ve SRGAN çıktılarının insanlara algısal anlamda daha kaliteli geldiği sonucuna böyle varılmıştır. PSNR ve SSIM gibi metriklerin algısal kaliteyi ölçememesi sebebiyle 2018 yılında düzenlenen Avrupa Bilgisayarlı Görü Konferansı - Algısal Görüntü Restorasyonu ve Manipülasyonu çalışmasında algısal kaliteyi ölçmek adına Algısal İndis metriğinin kullanımı önerilmiştir. İlgili çalışmada ayrıca süper çözünürlüklü görüntülerin orijinal görüntülere kıyasla rekonstrüksiyon hatalarını ölçmek adına RMSE yani kök ortalama kare hatası da kullanılmıştır. Biz de çalışmamızda algısal kaliteye önem verdiğimiz için algısal indis (PI) ve kök ortalama kare hatası (RMSE) metriklerini kullandık. Süper çözünürlük çalışmamızda gördük ki DIV2K ile eğitilmiş model kullanılarak süper çözünürlük uyguladığımız xView ve DOTA görüntülerinde en iyi algısal indis değerleri yani insan algısına göre en kaliteli görseller elde edilirken, öğrenme aktarımı yöntemi ile eğittiğimiz modeller kullanılarak süper çözünürlük uyguladığımız görüntülerde ise en iyi RMSE değerleri yani en düşük rekonstrüksiyon hatalı görseller elde edilmektedir. Eğitimler sonunda DIV2K ile eğitilmiş ilk model, öğrenme aktarımı ile xView üzerinde eğitilmiş model ve yine öğrenme aktarımı ile DOTA üzerinde eğitilmiş model olmak üzere 3 model elde ettik. Süper çözünürlüğün nesne tespitine etkilerini incelemek adına 3 süper çözünürlük modelinin çıktıları için nesne tespiti uyguladık. Nesne tespiti testlerinde MAP yani ortalama kesinlik değerlerinin ortalaması metriğini kullandık. Nesne tespiti için ise iki ayrı test yöntemi belirledik. Birinci yöntemde yüksek çözünürlüklü orijinal görüntüler üzerinde Scaled-YOLOv4 mimarisi ile nesne tespiti yaptık ve yüksek çözünürlüklü görüntülerin nesne tespiti sonuçlarını mutlak doğru kabul ettik. Ardından süper çözünürlüklü görüntüleri ve bikübik interpolasyon görüntülerini kullanarak nesne tespiti uyguladık ve MAP sonuçlarının yüksek çözünürlüklü görüntülere ne kadar yakın olduğunu görmek istedik. Burada bizi şaşırtan şu sonuç ile karşılaştık. Algısal kalitesi yüksek olan görseller bikübik interpolasyona kıyasla algısal anlamda çok daha kaliteli iken bikübik interpolasyonda uçak olarak tespit edilen ve gerçekte uçak olan bir nesne yüksek kaliteli görselde kuş olarak yanlış sınıflandırılabilmektedir. RMSE değeri yüksek görüntülerde ise böyle bir problem olmamaktadır. İkinci nesne tespiti yöntemimizde ise daha önce bahsettiğimiz üzere DOTA veri setinin nesne etiket bilgileri olmasından faydalandık. Bu etiket bilgileri ile DOTA veri seti kullanılarak oluşturulan süper çözünürlüklü görüntülerin bikübik interpolasyonla kıyaslamalı olarak nesne tespitine etkilerini gözlemledik. Burada yüksek çözünürlüklü görüntüler mutlak doğru kabul edilmediğinden ilgili görüntülerde de hatalı nesne tespit edilebileceği değerlendirilerek süper çözünürlük, bikübik interpolasyon, yüksek çözünürlük görüntüleri gibi tüm görüntüleri bağımsız test etmiş olduk. Sonuç olarak en iyi nesne tespiti sonuçları en iyi RMSE değerlerine ulaşan süper çözünürlük modellerinin sonuçları ile elde edildi. İnsan algısına göre daha kaliteli sonuçlar üreten modeller ise nesne tespiti kalitesinde daha az etkili oldu. Yine de her iki model de bikübik enterpolasyon gibi basit çözünürlük arttırma yöntemlerine kıyasla daha iyi sonuçlar verdi. Çalışmamızda şu çıkarıma vardık ki, algısal kalitesi yüksek olan görüntüler insan algısı için daha anlamlı iken daha düşük rekonstrüksiyon hatasına sahip görüntüler bilgisayarlar için daha anlamlıdır. Bu da demek oluyor ki bilgisayarlar insanlardan farklı görür. Daha iyi anlaşılabilirlik için çalışmamızın akışını ayrıca belirtmek istedik. Havadan yakalanan görüntüler içeren veri setleri alınarak SRGAN ile süper çözünürlük eğitimine verilir. Burada 3 yöntem bulunur. Birinci yöntemde DIV2K ile temel eğitim yapılarak bir süper çözünürlük modeli oluşturulur. İkinci yöntemde xView ve DOTA veri setleri ile öğrenme aktarımı yapılarak 2 ayrı model oluşturulur. 3 yöntemde ise xView ve DOTA veri setleri ile sıfırdan bir eğitim yapılarak modeller oluşturulur. Tüm oluşturulan modeller ile süper çözünürlük testleri yapılarak 3 süper çözünürlük modeli seçilir. Seçilen üç modelden biri hem xView hem de DOTA veri setleri için en yüksek algısal indis sonucu veren modeldir. İkinci model xView veri seti için en yüksek RMSE sonucunu veren modeldir. Üçüncü model ise DOTA veri seti için en yüksek RMSE sonucunu veren modeldir. Ardından bu 3 farklı süper çözünürlük modeli kullanılarak nesne tespiti testleri yapılır. Nesne tespiti testlerinde Scaled-YOLOv4 ile yüksek kaliteli görüntüler mutlak doğru kabul edilerek xView ve DOTA veri setleri üzerinde ayrı ayrı testler yapılır. Ayrıca Faster RCNN ile DOTA üzerinde bu sefer yüksek çözünürlüklü görüntüler mutlak doğru kabulü yapılmadan orijinal DOTA veri setinde verilen etiketler kullanılarak nesne tespiti testleri yapılır. Tüm nesne tespiti sonuçları tamamlanınca MAP metriği kullanılarak tüm yöntemler ayrı ayrı değerlendirilir ve tüm sonuçlar karşılaştırılır. Çalışmamızın akışı bu şekildedir. Çalışmamızdaki önemli limitlerden bir tanesi kullanılan eğitim ortamıdır. Çalışmada kullanılan Google Colab Pro ortamı 24 saat sonrasında yeni bir oturum açmayı gerektirdiğinden ve performans olarak NVIDIA GTX 1070 ekran kartına yakın bir performans sergilediğinden dolayı daha iyi bir donanım kullanılarak daha fazla eğitim yapılabileceği ve dolayısıyla daha iyi sonuçlar alınabileceği kanaatindeyiz. Ayrıca uçtan uca, sadece mAP değerini yani obje tespiti skorunu artırmak maksadıyla kurulacak bir mimari ile süper çözünürlük eğitimi yapılması da gelecek bir proje olarak değerlendirilebilir. Çalışmamızı tamamladıktan sonra literatür incelemelerimizde de gördüğümüz üzere bildiğimiz kadarıyla dönüştürücü sinir ağı mimarileri (Transformer Neural Networks) süper çözünürlük anlamında en iyi performansı vermektedir. Gelecek bir çalışmada SRGAN yerine bir dönüştürücü sinir ağı ile süper çözünürlük uygulanarak çalışmamıza ek yapılabilir.
Özet (Çeviri)
Data quality and resolution are important properties for computer vision tasks. Super-resolution is a powerful way to increase the image resolution with low reconstruction error and super-resolved images contain more information about the original scene compared to their low-resolution counterparts. In this thesis, we worked on training super-resolution models for aerial images using the transfer learning technique. Furthermore, we used the models to analyze the effects of super-resolution on object detection for aerial images. Super-resolved images have more detailed information about an original scene when we compare them to their low-resolution versions. So, the Super Resolution can be used as a preprocessing method for computer vision tasks. Super-resolved images are more meaningful to humans. They can be generated using an original low-resolution image. They are beneficial on computer vision tasks such as medical image processing, pattern recognition, object detection, and so on. In this thesis, our aim is to apply the Super-Resolution method to Aerial Images to generate more information using their low-resolution pairs. Super Resolution Generative Adversarial Network (SRGAN) is a powerful way to achieve this task and we utilized it in this work. The SRGAN is a generative modeling methodology. It is based on Generative Adversarial Networks. We used the DIV2K dataset to train a base model. After that, we utilized the transfer learning technique to train separate models on other aerial image datasets, the xView, and the DOTA. These datasets contain aerial images captured by satellites. We applied the transfer learning technique using the base model trained with the DIV2K dataset to achieve better image quality for the aerial images. The widely known metrics like PSNR, SSIM, and so on have some problems when measuring perceptual quality. To address this problem, we used the Perceptual Index (PI). Also, the Root Mean Squared Error (RMSE) is used to measure how close the generated images are to their original versions. Both metrics are used at European Conference on Computer Vision. In 2018, these metrics were used for Perceptual Image Restoration and Manipulation Workshop. We have observed that the pre-trained model on the xView and the DOTA results in better perceptual quality images. And, the transfer learning model trained using the base model results in better reconstruction quality images. The perceptual quality is measured using the PI and the reconstruction quality is measured using the RMSE. In the end, we had one base model trained on the DIV2K dataset, one trained on the xView dataset using transfer learning, and one trained on the DOTA dataset using transfer learning. We applied object detection for all of the models' results. We used the MAP metric for the object detection evaluation. We achieved the best object detection results with the models which have the best RMSE scores. The models which generate images more meaningful to human perception was less effective on the object detection quality. Both models resulted better compared to naive up-sampling methods like bicubic interpolation. We conclude that the images which have better perceptual quality are more meaningful to human perception but the images with low reconstruction error are more meaningful to computers. This indicates that computers see differently compared the humans. One key limitation of this work was the limited architectures we used for achieving high-resolution images. Better results can be achieved with further training. Also, applying end-to-end training, to train the SRGAN to improve object detection accuracy can be future work to achieve a better mAP.
Benzer Tezler
- Termal görüntülere derin öğrenme tabanlı süper çözünürlük yöntemlerinin uygulanması
Application of deep learning based super resolution in thermal images
CANER CİVE
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- Super-resolution of landsat-8 images using sentinel-2 images and generative adversarial networks
Sentinel-2 görüntüleri ve çekişmeli üretici ağlar kullanılarak landsat-8 görüntülerinin süper çözünürlüğü
ESRA SUNKER
Yüksek Lisans
İngilizce
2024
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ELİF SERTEL
PROF. DR. BÜLENT BAYRAM
- Extreme low resolution video action recognition
Aşırı düşük çözünürlüklü videolarda aksiyon tanıma
OĞUZHAN OĞUZ
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZLI İKİZLER CİNBİŞ
- Pansharpening using generative adversarial networks with dual discriminators
Çift ayrıştırıcılı çekişmeli üretken ağlar kullanarak pankeskinleştirme
NAHİDE NESLİ CESUR
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. IŞIN ERER
- Self-supervised pansharpening: Guided colorization of panchromatic images using generative adversarial networks
Öz-denetimli pankeskinleştirme: Çekişmeli üretken ağlar ile pankromatik görüntülerin güdümlü renklendirilmesi
FURKAN ÖZÇELİK
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GÖZDE ÜNAL