Geri Dön

Deshufflegan: Self-supervised learning for generative adversarial networks

Deshufflegan: Çekişmeli üretken ağlar için öz-denetimli öğrenme

  1. Tez No: 637455
  2. Yazar: GÜLÇİN BAYKAL CAN
  3. Danışmanlar: PROF. DR. GÖZDE ÜNAL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 82

Özet

Çekişmeli Üretken Ağlar (Generative Adversarial Networks), üretilen görsellerin istenilen veri dağılımını taklit edebilmesini sağladığından, Derin Sinir Ağlarının (Deep Neural Networks) görsel üretmede kullanılmasını sağlamıştır. Görsel üretmenin en önemli amaçları yüksek kalitede görseller üretmek, farklı çeşitlilikte görseller üretmek ve modellerin eğitiminin dengeli bir şekilde ilerlemesinin sağlanmasıdır. Pek çok çekişmeli üretken ağ (ÇÜA) modeli, kaliteli ve aynı zamanda çeşitli içeriğe sahip görseller üretmek amacıyla özelleşmiştir. ÇÜA modelleri 2 ayrı yapay sinir ağı modelinin birbirleriyle etkileşimli çalışmasıyla oluşturulur. Üretici denilen yapay sinir ağının amacı, elde bulunan mevcut veriye benzeyen, kaliteli ve çeşitli görseller üretmektir. Ayrıştırıcı ağın amacı ise, kendisine girdi olarak verilen görselin üretici ağdan mı yoksa gerçek veriden mi geldiğini ayırt etmektir. Üretici ağ, ayrıştırıcı ağı kandırabilecek kalitede görseller üretmeyi amaçlarken ayrıştırıcı ağ ise, gerçek veride bulunan özellikleri öğrenmeye çalışır ve öğrendiği ayrıştırıcı özellikler sayesinde görselleri birbirlerinden ayırt etmeyi amaçlar. ÇÜA modelinin, verideki yapısal ve ayrıştırıcı özellikleri öğrenme yeteneği, üretici ağ tarafından üretilen görsellerin de kaliteli olmasını sağlar. Üretici ağ, normal dağılıma sahip uzaydan örneklenen bir vektörü, gerçek verinin sahip olduğu uzaya benzer bir 2 boyutlu görsel uzayına çevirmeyi öğrenmeye çalışır. Standart ÇÜA eğitiminin, üretici ağın kaliteli ve gerçek veri dağılımını temsil edebilen görseller üretebilmesi amacıyla ek bilgilerle desteklenmesi gerekmektedir. Bu amaçla ayrıştırıcı ağın kapasitesi arttırılmalı ve öğrendiği özelliklerin kalitesi yükseltilmelidir. Ayrıştırıcı ağın öğrendiği özellikler, üretici ağı bu özelliklere sahip görseller üretmek konusunda destekler. Bu sebeple ayrıştırıcı ağın kapasitesini arttırmak, öğrendiği özelliklerin çeşitliliğini arttırmaya yardımcı olur. Ayrıştırıcı bir ağın kapasitesini arttırmaktan kastedilen, bu ağa yeni görevler veya veriyle ilgili bilgiler vermekle mümkün olabilmektedir. Koşullu görsel üretimi, görsellerin bir sınıf etiketine bağlı olarak üretilmesidir. Bu sınıf bilgisi, ÇÜA modellerinin veriyle alakalı ek bir bilgiye sahip olmasını sağlar. Koşulsuz görsel üretimi ise bu bilgiden yoksundur ve veriyle ilgili sahip olduğu tek bilgi, o verinin üreticiden mi yoksa gerçek veriden mi geldiği bilgisidir. Veriyle ilgili sahip olunan ek bilgiler, ÇÜA modelinin eğitiminin dengeli hale gelmesini sağlarken aynı zamanda üretilen görsellerin de kalitesini arttırır. Bazı çalışmalarda sınıf bilgisi yardımcı sinyal olarak eğitime dahil edilirken, bazı çalışmalarda ise ayrıştırıcı ağa, üretilen ve gerçek veriden örneklenen girdinin hangi sınıfa ait olduğunu tahmin etme görevi de verilir. Bu durum, ayrıştırıcı ağın kapasitesini ek bir görevle arttırmaya örnektir. Sınıf etiketlerinin yardımcı sinyaller olarak kullanılması ve ayrıştırıcı ağın ek görevlerle geliştirilmesi, ÇÜA modellerinin eğitiminde dengenin sağlanmasında ve üretici ağın kaliteli ve çeşitli görseller üretmesi konusunda yardımcı olduğundan, ayrıştırıcı ağa verilen ek görevlerin ve sinyallerin belirlenmesi de büyük önem taşımaktadır. Bahsedilen yardımcı sinyaller, veri kümelerinin etiketleri ile elde edildiğinden, ÇÜA modellerinin eğitiminde ve değerlendirilmesinde sıklıkla kullanılan etiketlenmemiş verilerin eğitimi ek sinyallerden faydalanamamaktadır. Etikete sahip büyük ve çeşitli veri kümelerinin düzenlenmesi zaman ve insan gücü gerektirdiğinden zor bir iştir. Halihazırda çok sayıda veri içeren büyük ancak etiketlenmemiş veri kümelerinden yararlanabilmek büyük bir avantaj oluşturmaktadır. Öz-denetimli öğrenme (self-supervised learning), herhangi bir hesaplama maliyeti olmadan, ayrıştırıcı ağların ek görevlerle kapasitesini arttırmak için etiketlenmemiş veri kümelerinin kullanımını destekleyebilmektedir. Öz-denetimli öğrenmeyi ÇÜA modelleriyle bir arada kullanabilmek amacıyla geliştirilen öz-denetimli ÇÜA modelleri mevcuttur. Bu modellerde amaç, ayrıştırıcı ağa ek görevler vererek öğrenilen özelliklerin kalitesini arttırmaktır. Verilen yardımcı görevler, etiketli verinin sınıf etiketini tahmin etmek değil, belirli bir yolla değiştirilen verinin hangi yolla değiştirildiğini tahmin etmektir. Örnek olarak, veriyi 4 farklı açıdan döndürmek ve döndürme açılarını etiket olarak kullanmak maliyetli olmadığı gibi, verinin de bir etikete sahip olmasını sağlamaktadır. Görselleri parçalara ayrımak ve bu parçaları belirli bir permütasyonda karıştırmak da, kullanılan permütasyonu verinin yeni etiketi haline getirir. Öz-denetimli öğrenmede amaç, veriden maliyetsiz şekilde elde edilebilecek etiketleri elde etmek ve bu sayede her türlü veriden yararlanmayı kolaylaştırmaktır. ÇÜA modellerinde ayrıştırıcı ağlara verilen ek görev de, öz-denetimli öğrenme ile elde edilebilen maliyetsiz etiketleri tahmin edebilmektir. Verinin dönme açısını tahmin edebilmek veya verinin karıştırılma sırasını tahmin edebilmek için öğrenilmesi gereken özellikler, ayrıştırıcı ağın öğrendiği özelliklerin çeşitliliğini ve kalitesini arttırmaktadır. Literatürde ilk olarak geliştirilen öz-denetimli ÇÜA modeli, ayrıştırıcı ağa dönme açısını tahmin etme görevini vermiştir. Bu çalışmada ise, veriden öğrenilebilecek yapısal özellikleri öğrenmeyi desteklemek amacıyla, 9 parça haline getirip karıştırdığımız görsellerin hangi sıralamada karıştırıldığını öğrenme görevini ayrıştırıcı ağa verdik ve üretilen görsellerin kalitesini arttırmayı başardık. DeshuffleGAN ismini verdiğimiz yeni ÇÜA modelinin amacı, standart ÇÜA eğitiminin yanında karıştırılmış görselleri tekrar karıştırarak eski haline getirmeyi öğrenmektir. Eğitimlerimizde LSUN-Bedroom, LSUN-Church, CelebA-HQ ve CAT isimli 4 farklı veri kümesini kullandık. LSUN-Bedroom yatak odası görsellerinden, LSUN-Church kilise görsellerinden ve CelebA-HQ ise insan yüzlerine odaklanılan görsellerden oluşmaktadır. LSUN veri kümelerinde, temel olarak kullandığımız ve daha önce önerilen öz-denetimli ÇÜA modellerinin tamamından daha iyi sonuçlar elde ettik ve bu sonuçları görsel ve sayısal olarak kanıtladık. Çalışmamızda asıl amacımız, ayrıştırıcı ağın öğrendiği özelliklerin, verideki yapıları daha iyi temsil edebilen özellikler olmasını sağlamak ve bu sayede üretici ağı, yapısal olarak anlamlı ve birbiriyle alakalı parçalar içeren görseller üretmesi konusunda teşvik etmektir. Her görseli 3x3 boyutlarda, 9 kare parçadan oluşacak şekilde bir yapboz haline getirdik. Normal şartlarda 9! permütasyon uygulanabilecekken, tüm permütasyonlardan yararlanmanın fazladan bir fayda getirmeyeceği gibi hesaplama maliyeti olarak da sıkıntılı olması sebebiyle, 9! permütasyon içerisinden 30 farklı permütasyon seçtik ve bir girdi setindeki tüm görselleri, rastgele ve birbirinden farklı permüstasyonalarla karıştırdık. Ayrıştırıcı ağın öğrenmesi gereken özellikler gerçek veriden elde edildiğinden, ayrıştırıcı ağın eğitiminde gerçek verinin karıştırılmış halinden yararlandık. Bu sayede ayrıştırıcı ağ, gerçek verinin yapboz halini çözmeye çalışırken aynı zamanda verideki yapısal özellikleri öğrenmek zorunda kalacaktır. Üretken ağın ise amacı, ayrıştırıcı ağın, gerçek veriden öğrendiği özellikleri kullanarak bile fark edemeyeceği ölçüde gerçek veriye benzeyen görseller üretmektir. Üretici ağın bu amaçla yapması gereken, ayrıştırıcı ağın yapboz görevi ile öğreneceği özellikleri içinde barındıran görseller üretmektir. Bu sebeple, üretilen görsellerin karıştırılmış yapboz halleri üretici ağın eğitiminde kullanılmış ve üretici ağ, yapısal anlamda tutarlı, kaliteli görseller üretmesi konusunda desteklenmiştir. Üretilen görsellerin gerçek görsellere benzerliğini ölçmekte kullanılan en yaygın yöntem FID hesaplamasıdır. FID değerinin azlığı, iki veri kümesinin birbirine ne kadar benzediğini gösterir. Bu sebeple çalışmalardaki amaç düşük FID değerlerine ulaşabilmektir. Bu çalışmada sunduğumuz yöntem, muadili olabilecek diğer yöntemlere göre daha düşük FID sonuçlarına ulaşmıştır. Ayrıca kullandığımız öz-denetimli öğrenme yönteminin, ÇÜA modelinin eğitimini nasıl etkilediğini, kayıp fonksiyonlarını inceleyerek analiz ettik ve öz-denetim mekanizmasının her veri kümesinde benzer etkileri olmayabileceğini gözlemledik. Deneylerimizde farklı yapıda ÇÜA modelleri kullanmak da, öz-denetim mekanizmasının hangi ölçüde etkili olabileceğini belirleyen bir diğer faktör oldu. Sunduğumuz yöntemle elde edilen sonuçlar, görsel olarak ve sayısal olarak diğer yöntemlere üstünlüğünü kanıtlamıştır.

Özet (Çeviri)

Generative Adversarial Networks (GANs) attracted the attention of the research community with its performance in high quality image generations. After the idea of two player game theory as well as the multi-objective and multi-task loss ideas are introduced with the GAN models, numerous modifications on the architectures of the generator and the discriminator networks and the learning objectives are proposed. The basic intuition behind the desired improvements is to increase the quality of the generations at the output of the generator network of the GAN model. One of the ways to improve the generation performance is to enhance the discriminator network of the GAN model in order to learn expressive features of the real data and feed that information back to the generator of the GAN model. Original conditional GANs support the discriminator by adding the information of the class label as input along with the data. Class label information can be helpful as an additional signal to the training or the information can be used as a new task for the discriminator in order to increase its representation capacity. The capacity of the discriminator needs to be enhanced in order to learn meaningful features that can be used to distinguish between the real data and the fake data. As the usage of class labels improves the discriminator performance, equivalently the generation performance by the generator, this information can be beneficial in the training of GANs. However, as the acquirement of class labels is expensive in terms of both time and human resources, new ways of creating and incorporating additional information about the data should be considered. Self-supervised learning is a method to make use of the pseudo-labels of the data where these labels are obtained through an automatic process which is computationally light and easy. For example, the image can be rotated by 4 different degrees and the rotation degree can be used as a label for the data. Other than this, the input can be divided into pieces and the pieces can be shuffled. Then, the shuffling order can be treated as an additional information about the data. In this work, we propose a new method called DeshuffleGAN that deploys the additional task of deshuffling a shuffled image to the discriminator network of the GAN in order to enrich the learnt features by the discriminator. In order to perform deshuffling, structural relations among image tiles should be learnt. This implies that the discriminator should learn structurally coherent features of the data. As the generator tries to trick the discriminator by the synthesized images so that the discriminator treats them as the real data, the image generation quality should be improved such that the discriminator cannot distinguish them even with the learnt structural features. Therefore, the deshuffling task also supports the generator network to synthesize structurally coherent images. DeshuffleGAN outperforms the baseline methods demonstrated in this thesis and achieves both numerically and visually better results. We use FID calculation as the numerical evaluation metric where lower FID values imply the generated data distribution is similar to the real data distribution which is the desired outcome. We show that the DeshuffleGAN achieves lower FID values on datasets such as LSUN-Bedroom and LSUN-Church. We also use CelebA-HQ and CAT datasets and observe that self-supervision tasks may not always show significant effects on the generation quality of GANs. We further show the effects of the deshuffling task by employing different GAN architectures, and discuss which kind of discriminator architecture may be more appropriate to be coupled with a self-supervision task.

Benzer Tezler