Scene-preserving person appearance transfer
Sahneyi koruyan kişi görünüm aktarımı
- Tez No: 665565
- Danışmanlar: DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 105
Özet
Derin öğrenme ve derin üretken modellerdeki son gelişmeler, görüntü ve video düzenleme alanında çok sayıda yeni uygulamayı mümkün kılmıştır. Kişinin poz ve görünüşünün görüntüler arasında düzenlenmesi bu tür konulardan bir tanesidir. Son zamanlarda yapılan birkaç çalışma, aynı sahnede tek bir kişinin pozunu dönüştürmek için yöntemler ortaya koymuştur. Ayrıca görünüşü, sahneyi ve pozu ayrı temsiller üzerinden modellemeyi ve bu temsiller üzerinden keyfi görünümler, arka planlar veya pozlarla yeni imajlar üretmeyi amaçlayan çalışmalar vardır. Benzer şekilde, bazı çalışmalar, bir kişinin videosunu kullanarak kişiyi rastgele pozlarda oluşturmayı öğrenmek için belirli bir kişinin görünümünü modellemektedir. Bu tezde, bir görüntüdeki kişiyi hem muhtemelen farklı pozlar hem de farklı arka planlara sahip tek bir görüntüden başka bir kişiyle değiştirebilecek üretken bir model öğrenmeyi hedefleyerek bu sorunların kapsamlı bir versiyonunu ele alıyoruz. Daha spesifik olarak, rastgele bir poza sahip bir aktörün tek bir görüntüsünü ve poz ve sahne bilgilerini sağlayan dublörün görüntüsünü kullanarak aktörün kendi görünümünde, dublörün pozunda ve arka planında görünüşünü içeren yeni bir görüntüsünü oluşturan üretken bir model öğrenmeyi hedefliyoruz. Dublör pozundaki aktörün görünümünün düzgün bir şekilde yeniden oluşturulmasını ve poz ve fiziksel özellik farklılıklarından kaynaklanan eksik arka plan ve ön plan piksel bilgilerinin sentezlenmesini gerektiren gerçekçi bir son görüntü elde etmeyi hedefliyoruz. Bu amaçla, maskelenmiş rekonstrüksiyon kaybı aracılığıyla piksel bazlı ön plan ve arka plan ayrıntılarının tahmin kalitesini maksimize etmek ve rakip eğitimli bir ayırt edici ağ aracılığıyla üretilen görüntünün gerçekliğini en üst düzeye çıkarmak için eğitilmiş uçtan uca bir çerçeve öneriyoruz. Ayrıca, video segmentasyon veri seti olan YouTube VOS ve Davis'i önerilen görev için uyarlayarak yeni bir karşılaştırma ölçütü sunuyoruz. Yaklaşımımızı önerilen kıyaslama veri setlerinede deneysel olarak inceliyor ve değerlendiriyoruz.
Özet (Çeviri)
Recent developments in deep learning and deep generative models have enabled numerous new applications in the area of image and video editing. One such emerging topic is the editing of pose and appearance of the person across images. Several recent works have introduced methods for transforming the pose of a single person within the same scene. In addition, there are works that aim to model the appearance, scene and pose through separate representations, and produce new images with arbitrary appearances, backgrounds or poses through these representations. Similarly, some works model the appearance of a particular person through his/her video to learn to generate the person in arbitrary poses. In this thesis, we tackle a comprehensive version of these problems by aiming to learn a generative model that can replace the person in an image with another person from a single image, both with possibly different poses and different backgrounds. More specifically, we aim to learn a generative model that takes a single image of an actor with an arbitrary pose and a stuntman that provides the pose and scene information and yield a new image that contains the background scene and pose of the stuntman and the appearance of the actor. We aim to obtain a realistic final image, which requires properly re-generating the actor appearance in the pose of the stuntman and synthesizing the missing background and foreground pixel information due to pose and physical characteristic differences. For this purpose, we propose an end-to-end framework that is trained to maximize the prediction quality of pixel-wise foreground and background details via masked reconstruction loss terms and realism of the output image via an adversarial trained discriminator network. We also introduce a new benchmark by adapting the video segmentation datasets YouTube VOS and Davis for the proposed task. We experimentally investigate and evaluate our approach on the proposed benchmark dataset.
Benzer Tezler
- Learning based image and video editing
Öğrenme temelli görüntü ve video düzenleme
LEVENT KARACAN
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
- Postmodern kimliğin oluşumunda popüler kültür çerçevesinde tasarlanan televizyon reklamlarının etkisi
The effect of television advertisements that is projected in the context of popular culture at constituting postmodern identity
MERYEM KÖSE
- Realisms and working women in the novels of Gaskell and Brontë
Gaskell ve Brontë'nin romanlarında gerçekçilik ve çalışan kadınlar
RANA KAHVECİ
Yüksek Lisans
İngilizce
2014
İngiliz Dili ve EdebiyatıOrta Doğu Teknik Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
YRD. DOÇ. DR. MARGARET J. M. SÖNMEZ
- Cisimleşmiş mekân: Beden ile nesnel dünya arasında varoluşsal bir yer
Embodied space: An existential place between the body and the objective world
ECE ÖZTÜRK
Yüksek Lisans
Türkçe
2019
Felsefeİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. YASEMİN ALKIŞER BREGGER
- Direct pore-based identification for fingerprint matching process
Parmak izi kimliklendirme sürecincde por temellieşleştirme sistemi
VEDAT DELİCAN
Doktora
İngilizce
2023
Adli Tıpİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN