Attention-based object placement for image compositing
Görüntü birleştirme için dikkat tabanlı nesne yerleştirme
- Tez No: 826988
- Danışmanlar: PROF. DR. GÖZDE AKAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 93
Özet
Görüntü birleştirme, sentetik veri oluşturma ve fotoğraf düzenleme gibi işlemlerde kullanılan, bilgisayarlı görünün üretici bir işlemidir. Bu alan, verilen görsel bileşenlerden gerçekçi yeni görüntüler oluşturmayı içerir. Görüntü kompozisyonu, görüntü uyumlandırma, nesne yerleştirme ve gölge oluşturma gibi birçok alt görevi içerir. Nesne yerleştirme, verilen bir nesneyi uygun bir biçimde verilen bir arka plana yerleştirme işlemini kapsar ve nesnenin boyutu, destekleyici zemini ve örtme durumu gibi faktörleri dikkate alır. Obje yerleştirme literatürü, nöral ağ teknolojilerindeki gelişmelere paralel olarak gelişmiştir. Evrişimli sinir ağı tabanlı görüntü sınıflandırıcılar, çekişmeli üretici ağlar ve dikkat mekanizmaları kronolojik sırayla bu alanın en gelişmiş modellerinin temel bileşenleri olmuştur. Günümüzde dikkat tabanlı yaklaşımlar, nesne yerleştirme alanında iki farklı yöntemi izlemektedir: biri, çapraz dikkat mekanizmasını kullanarak dönüşüm vektörünü hesaplamayı içerirken diğeri, kendine dikkat mekanizmasını kullanarak nesneyi yerleştirmek için konumların uygunluğunu nitelendiren bir yerleştirme uygunluğu ısı haritası üretmektedir. Ancak, bu iki yaklaşım arasında kapsamlı bir performans analizi literatürde bulunmamaktadır. Bu çalışmada, bu iki modelin performansını inceleyerek ve karşılaştırarak literatürdeki gelecek adımlar için içgörü sağlamayı amaçlıyoruz. Ayrıca, dikkat tabanlı nesne yerleştirme nöral ağlarına nesne sınıf kodlarının ayrıca verilmesinin etkilerini inceliyoruz. Ek olarak, yerleştirme uygunluğu ısı haritasından yerleştirme konumlarının çıkarılma yöntemlerini incelemiş ve kendi yöntemimizi önermiş bulunuyoruz. Sonuçlar, çapraz dikkat mekanizmasını kullanarak dönüşüm vektörünü hesaplamanın, nesne yerleştirme için daha efektif bir tasarım seçimi olduğunu; nöral ağ modeline sınıf kodlamalarının ayrıca verilmesinin daha ağır bir dikkat mekanizması içeren mimarilerde daha etkili olduğunu ve önerdiğimiz ısı haritasından yerleştirme konumlarının çıkarım yönteminin literatürdeki yöntemden daha etkili olduğunu ortaya koymaktadır.
Özet (Çeviri)
Image composition is one of the generative tasks of computer vision, that finds applications in fields such as synthetic data generation and advertising. It can be defined as constructing realistic novel images from given image components. Image composition encompasses several subtasks, including harmonization, object placement, and shadow generation. Object placement is the task of placing a given foreground object onto a given background in a logical manner, taking into account factors such as object size, supporting ground, and occlusion. Object placement literature has evolved alongside the advancements in neural network technologies. With these advancements, convolutional neural networks (CNNs), generative adversarial networks (GANs), and transformers have become the key components of state-of-the-art approaches. Among these, transformer-embodying approaches give the best performance, due to the help of attention mechanisms. These attention-based approaches in the field follow two paths: one involves regressing the transformation vector by utilizing cross-attention, while the other produces a placement-rationality heatmap to find the best position to place the object, benefiting from self-attention. However, a comprehensive performance analysis between these two approaches is lacking in the literature. In this work, we examine and compare the performances of these two models to provide insight into the next steps for the field. Additionally, we explore the effect of providing foreground object class encodings to attention-based object placement methods. Furthermore, we have analyzed placement extraction procedures from placement-rationality heatmap output and proposed a new procedure. Results show that employing a cross-attention mechanism while regressing the transformation vector is the superior design choice for object placement neural models. Furthermore, findings indicate that providing class encodings to models benefits the architecture with a more complex attention mechanism better. Lastly, it is also seen from the results that the proposed placement extraction procedure is more effective than the one employed in the literature.
Benzer Tezler
- Uzman sistemler ve ulaştırma alanında kullanımları
Expert systems and using them in transportation
A.BURAK GÖKTEPE
- Task-based automatic camera placement
Görev yönelimli otomatik kamera yerleşimi
MUSTAFA KABAK
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. TOLGA K. ÇAPIN
- Design and tele-impedance control of a variable stiffness transradial hand prosthesis
Değişken esnekliğe sahip dirsek altı el protezinin tasarımı ve uzaktan empedans kontrolü
ELİF HOCAOĞLU ÇETİNSOY
Doktora
İngilizce
2014
BiyoteknolojiSabancı ÜniversitesiMühendislik Bilimleri Ana Bilim Dalı
DOÇ. DR. VOLKAN PATOĞLU
- Yüksek binalarda asansörlerin tasarımı ve değerlendirilmesi için bir uzman sistem
An Expert system for the design and evaluation of the elevators in high buildings
NURAY ÇANKAYA
- Çeşitli büyüklüklerdeki alışveriş mekanlarını aydınlatma sistemleri tasarım ilkeleri
Designing principles of lighting systems in store designs of various types
HALE İKİZLER
Yüksek Lisans
Türkçe
1996
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. MEHMET Ş. KÜÇÜKDOĞU