Deep convolutional neural networks for image inpainting
Derin evrişimsel sinir ağları ile resimlerde içboyama
- Tez No: 467090
- Danışmanlar: PROF. DR. GÖZDE ÜNAL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
İçboyama (inpainting), bir resmin belirli bir bölgesinin veya tamamının fark edilmeyecek şekilde değiştirilmesini ifade etmektedir. Hasar almış resimlerin tamir edilmesi, istenmeyen nesnelerin resimden çıkartılarak oluşan boşluğun doldurulması gibi işlemler içboyama uygulamalarının çözmeye çalıştığı problemlerdir. Bu çalışmada derin yapay sinir ağlarının içboayamaya problemine çözüm üretmedeki başarımı incelenerek önerdiğimiz özgün yöntemlerin performansı ne kadar arttırdığı gösterilecektir. İçboyama alanında yapılmış olan çalışmalar derin sinir ağlarının bügünkü popülaritesini kazanmasından daha öncelere dayanmaktadır. Erken dönem çalışmalar genellikle tek bir resim üzerinden elde edilen bilgileri kullandıklarından, barındırdığı dokuların çeşitliliği az olan resimlerde iyi sonuçlar vermelerine karşın içeriğinde farklılaşmanın çok olduğu resimler üzerinde ise tatmin edici sonuçlar elde edememiştir. Geleneksel sinir ağları ile yapılan çalışmalar ise küçük bölgeleri doldururken başarılı olmasına karşın büyük boşlukları doldurmada yetersiz kaldığı bildirilmiştir. Son yıllarda görüntü işleme ve bilgisayarda görü alanlarındaki başarılarından dolayı derin sinir ağları birçok araştırmacının dikkatini çekmeyi başarmıştır. Sınıflandırma problemlerinde başarısını kanıtlayan derin sinir ağlarının gerçekçi resim dokusu üretiminde kullanılması giderek önem kazanmaya başlamıştır. İçboyama uygulamalarında doldurulacak alanın büyüklüğü görece büyük olsa bile başarılı sonuçlar elde edilebilmektedir. Derin sinir ağları resmin bozulmamış kısımlarına bakarak resmin geneli hakkındaki önemli bilgileri açığa çıkarabilmektedirler. Sinir ağlarının başarımlarının, mimarilerin derinleşmesi ile belirli bir seviyede arttığı birçok çalışma tarafından gösterilsede, karmaşıklığının artması ile eğitilmeleri de giderek zorlaşmıştırmaktdır. Özellikle üretici sinir ağlarının eğitimi hala üzerinde aktif olarak çalışılan bir araştırma konusudur. Çekişmeli Üretici Ağlar (ÇÜA) gerçekçi resim dokusu üretme konusunda önemli başarılar göstermesiyle birlikte popülarite kazanmaya başlamış ve günümüze kadar çeşitli varyasyonları geliştirilmiştir. Temelde otomatik kodlayıcı (autoencoder) olarak tasarlanan bu sinir ağları eğitimleri sırasında üretilmek istenilen hedef resimleri girdi olarak alıp çıktı olarakta aynı resmi üretmeye çalışırlar. Ayırt edici ağ olarak adlandırılan diğer bir sinir ağı ise üretilen resimler ile hedef resimleri birbirinden ayırt etmeye çalışır. Optimizasyon süreci boyunca üretici sinir ağı, ayırt edici ağı kandırmaya çalışırken, ayırt edici ağ ise kendisine gönderilen resimleri ayırt etmedeki başarımını yükseltmeye çalışmaktadır. Bu yöntem içboayama problemi için de uygulanarak umut verici çıktılar elde edilmiştir. Fakat sonuçlar incelendiğinde problemin tam olarak çözülemediği ve üzerinde araştırma yapılması gereken eksikliklerin olduğu görülmektedir. Bu çalışmada, derin evrişimsel otomatik kodlayıcılar ile içboyama problemine çözüm aranmıştır. Önerdiğimiz çözüm iki aşamadan oluşmaktadır. İlk aşamada güncel yöntemlerin de kullandığı bir otomatik kodlayıcı mimiarisi esas alınarak bir derin evrişimsel sinir ağı geliştirilmiş ve ÇÜA'ya alternatif olarak yeni bir eğitim yaklaşımı önerilmiştir. İçboyama yapan sinir ağı, ortasından belirli bir bölümü çıkartılmış olan imgeyi girdi olarak alıp, çıkartılan parçanın yerini doldurmaya çalışmaktadır. Eğitim sürecinde Danışman Ağ olarak adlandırdığımız farklı bir evrişimsel sinir ağından faydalanılmaktadır. Önceden farklı bir veri seti üzerinde sınıflandırma için eğitilmiş Danışman Ağı'nın ara katmanlarından elde edilen öznitelikler ile otomatik kodlayıcının başarımının arttırıldığı gösterilmiştir. ÇÜA ve Danışman ağlar birlikte kullanılarak eğitim yapıldığında başarılı sonuçlar alındığı gözlemlenmiştir ve bu yöntem ilk aşama çözümümüzü oluşturmaktadır. İlk aşamada geliştirilen derin sinir ağından elde edilen sonuçlar resimdeki bozuk bölgenin yapısını ve dokusunu yakın olarak tahmin etmesine rağmen eğitim aşamasının karmaşıklığı ve yetersizliği nedeniyle üretilen dokuya istenmeyen yapaylıklar ve gürültü eklemektedir. Bu problemi çözmek için ilk aşamada geliştirdiğimiz sinir ağının çıkışına yeni bir sinir ağı ekleyerek üretilen resimlerdeki istenmeyen hatalar yok edilmeye çalışılmıştır. Böylece içboyama problemi çözmesi daha kolay iki alt probleme indirgenerek her bir problemi çözmek için derin sinir ağları geliştirilmiştir. Geliştirilen sinir ağı resim içerisinden çıkartılan parçanın etrafındaki piksel değerlerine bakarak kabaca genel yapıyı ve dokuyu tahmin etmektedir. Bu kısımdaki sinir ağı tek başına eğitilmektedir. Eğitim işlemi bittikten sonra ikinci sinir ağı devreye sokularak onun eğitimi ayrıca tamamlanır. İkinici sinir ağı girdi olarak ilk ağın çıktısını alır ve aynı boyutlarda temizlenmiş bir çıktı üretir. Buradaki girdi ve çıktı resimleri birbirine çok yakın olduğu için uçtan uca bir evrişimsel ağ kullanmak yerine girdi ve çıktının farkı öğrenilmeye çalışılmıştır. Son günlerde popülerlik kazanan bu yöntem ile daha başarılı sonuçlar elde edilmektedir. Birinci aşama sinir ağının daha çok resmin geneli hakkında bilgi toplaması istenildiği için geliştirilirken evrişim katmanında filtrelerin en ve boyları sabit tutularak adım atlama sayısı birden büyük seçilmiştir. Böylece her evrişim katmanından sonra aktivasyon çıktıları girdilerden daha küçük boyuta indirgenmiştir. Filtre büyüklükleri sabit olduğu için evrişimler resmin geneli hakkında daha çok bilgiyi edinebilmektedir. Aktivasyon çıktılarının büyüklüğü yarıya indiğinde evrişimlerin derinliği iki katına çıkartılmıştır. Küçülen aktivasyonlar belirli bir derinlikte geleneksel tam bağlı sinir ağları ile üst örneklemeyi yapacak olan kod çözücü bölümüne aktarılır. Kod çözücü kısımda evrişim yerine transpoze evrişim kullanılarak üst örnekleme yapılır. Bir önceki aşamada yapılanları tam tersi uygulanılarak her katmandan sonra aktivasyon çıktılarının büyüklüğü iki katına çıkarılırken derinlik yarıya indirilir. Istenilen yama büyüklüğü elde edildiğinde çıkış katmanında derinliği üç olan transpoze evrişim uygulanarak renkli çıktı üretilir. Bu mimari yaklaşım son zamanlarda giderek daha çok kullanılmakta ve başarılı sonuçlar elde edilmektedir. Deneysel sonuçlarda da gösterdiğimiz gibi içboyama için de uygun bir mimaridir. Üretilen ara çıktıdaki son düzeltmeleri yapmak için geliştirilen ikinci sinir ağı yerel bozuklukları gidereceği için mimari ilk aşamadaki sinir ağından ayrışmaktadır. Kullanılan filtrelerin boyutları ve derinlikleri sabit tutulmuştur. Girdi ve çıktı büyüklüklerinin aynı olması için her katmandan sonra aktivasyon çıktılarına kenar payı eklenmiştir. Bu sinir ağından girdi resmi bir kısayol bağlantısı ile çıktıyla toplanarak içboyaması yapılmış resim elde edilmektedir. Bu sayade doğrudan içboayama yapmak yerine nihayi çıktı ile girdi arasındaki fark öğrenilmiş olunur. Önerdiğimiz bu iki aşamalı özgün içboyama yaklaşımı son zamanlarda elde edilmiş sonuçlarda kayda değer bir iyileştirme sağlamıştır. Bu yöntem içboayama problemini tanımlarken yeni bir model sunarak farklı sistemler tarafından da kullanılabilecek bir ana çatı oluşturmuştur. Sistemde bulunan ilk sinir ağı yerine herhangi bir içboayama uygulaması konularak önerdiğmiz yaklaşım uygulanabilir. İlk aşama sonunda içboayama problemi tamamlanarak yeni bir problem oluşturulmuştur. Bu problem gürültü giderme ve üstünçözünüm problemlerine çok yakın olduğu için bu alanlarda uygulanan farklı yaklaşımlar önerdiğimiz ana çatı içerisinde kullanılabilmektedir. Bu çalışmada derin sinir ağlarının içboyama ve gerçekçi resim dokusu üretimindeki başarmını arttırmak için özgün bir mimari önerilmiş ve bu mimari içerisinde bulunan sinir ağlarının eğitimi için kullanılabilecek yeni bir yöntem gösterilmiştir.
Özet (Çeviri)
The goal of inpainting is reconstruction of an image without incurring noticeable changes. It is a widely used technique by the photo and video editing applications for repairing damaged images, removing undesired objects or refilling the missing parts of images. Although fixing the small deteriorations are relatively simple, filling the large holes or removing an object from the scene are still challenging due to complexity of the problem. Deep neural networks have shown promising results in image inpainting even if the missing area is relatively large. They are able to recover certain information by just considering the partial data. In this study, our aim is to provide a solution for the inpainting problem using deep convolutional neural networks. We propose a two staged approach for inpainting. At the first stage a generative model produces an intermediate result, which is satisfactory by itself, to repair the damaged image region. At the second stage, output of the generative model is enhanced by a residual network which finds out the high frequency details. For the first stage, we use an existing architecture and propose a new training approach as an alternative to the Generative Adversarial Networks which produces promising results. Our end-to-end neural network takes an image, which the certain part of its center is extracted, as an input, and then it attempts to synthesize texture for the blank region. One of the essential questions about realistic texture synthesis is: how can we measure the realism? No magical mathematical formula to determine whether an image is real or artificially constructed exists. In order to solve this challenging problem, a crucial step is to construct synthesis models which are trained based on a comparison of real images with generated outputs. Although primitive objective functions like Euclidean Distance assist in measuring and comparing information on the general structure of the image, they tend to converge to the mean of pixel values that cause blurry outputs. To solve this issue, during the training phase, a distinct deep convolutional neural network is used and it is called an Advisor Network. We show that the features extracted from intermediate layers of the Advisor Network, which is trained on a different dataset for classification, improves the performance of the autoencoder. We also train our network by using combination of the Advisor Network and the Generative Adversarial Network. Although deep neural networks are able to predict structure and texture of missing parts closely, most of the existing inpainting networks introduce undesired artifacts and noise to the repaired regions. To solve this problem, we present a novel framework which consists of two stacked convolutional neural networks that inpaint the image and remove the artifacts, respectively. The first network considers the global structure of the damaged image and coarsely fills the blank area. Then the second network modifies the repaired image to cancel the noise introduced by the first network. The proposed framework splits the problem into two distinct partitions that can be optimized separately, therefore it can be applied to any inpainting algorithm by changing the first network. Second stage in our framework which aims at polishing the inpainted images can be treated as a denoising problem where a wide range of algorithms can be employed. Our results demonstrate that the proposed framework achieves significant improvement on both visual and quantitative evaluations.
Benzer Tezler
- Yüz görüntülerinde derin üretken modeller ile anlamsal görüntü tamamlama
Semantic image completion with deep generative models in facial images
İLKAY ÇINAR
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT KÖKLÜ
- Deep image prior based high resolution isar imaging for missing data case
Eksik veri için derin görüntü önceli tabanlı yüksek çözünürlüklü tyar görüntüleme
NECMETTİN BAYAR
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. IŞIN ERER
- Çok katmanlı küresel derinlik parametreleri ve derin öğrenme yöntemleri ile 3B şekil tamamlama ve üretme
3D shape completion and generation using multilayer spherical depth parameters with deep learning methods
ABDÜLLATİF AĞCA
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FATMA BETÜL ATALAY SATOĞLU
- A novel approach for hair removal in skin cancer images to enhance segmentation and classification performance.
Deri kanseri görüntülerinin sınıflandırma ve bölütleme performansını artırmak için kıl gidermede yeni bir yaklaşım
AYYAD ERRAJI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. ZAFER İŞCAN
- Efficient human parsing and inpainting using advanced deep learning techniques
Gelı̇şmı̇ş derı̇n öğrenme teknı̇klerı̇nı̇ kullanarak etkı̇n ı̇nsan ayrıştırma ve inpainting
MD IMRAN HOSEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TARKAN AYDIN