Geri Dön

Attention-based object placement for image compositing

Görüntü birleştirme için dikkat tabanlı nesne yerleştirme

  1. Tez No: 826988
  2. Yazar: AKİF ÇAĞLAR
  3. Danışmanlar: PROF. DR. GÖZDE AKAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 93

Özet

Görüntü birleştirme, sentetik veri oluşturma ve fotoğraf düzenleme gibi işlemlerde kullanılan, bilgisayarlı görünün üretici bir işlemidir. Bu alan, verilen görsel bileşenlerden gerçekçi yeni görüntüler oluşturmayı içerir. Görüntü kompozisyonu, görüntü uyumlandırma, nesne yerleştirme ve gölge oluşturma gibi birçok alt görevi içerir. Nesne yerleştirme, verilen bir nesneyi uygun bir biçimde verilen bir arka plana yerleştirme işlemini kapsar ve nesnenin boyutu, destekleyici zemini ve örtme durumu gibi faktörleri dikkate alır. Obje yerleştirme literatürü, nöral ağ teknolojilerindeki gelişmelere paralel olarak gelişmiştir. Evrişimli sinir ağı tabanlı görüntü sınıflandırıcılar, çekişmeli üretici ağlar ve dikkat mekanizmaları kronolojik sırayla bu alanın en gelişmiş modellerinin temel bileşenleri olmuştur. Günümüzde dikkat tabanlı yaklaşımlar, nesne yerleştirme alanında iki farklı yöntemi izlemektedir: biri, çapraz dikkat mekanizmasını kullanarak dönüşüm vektörünü hesaplamayı içerirken diğeri, kendine dikkat mekanizmasını kullanarak nesneyi yerleştirmek için konumların uygunluğunu nitelendiren bir yerleştirme uygunluğu ısı haritası üretmektedir. Ancak, bu iki yaklaşım arasında kapsamlı bir performans analizi literatürde bulunmamaktadır. Bu çalışmada, bu iki modelin performansını inceleyerek ve karşılaştırarak literatürdeki gelecek adımlar için içgörü sağlamayı amaçlıyoruz. Ayrıca, dikkat tabanlı nesne yerleştirme nöral ağlarına nesne sınıf kodlarının ayrıca verilmesinin etkilerini inceliyoruz. Ek olarak, yerleştirme uygunluğu ısı haritasından yerleştirme konumlarının çıkarılma yöntemlerini incelemiş ve kendi yöntemimizi önermiş bulunuyoruz. Sonuçlar, çapraz dikkat mekanizmasını kullanarak dönüşüm vektörünü hesaplamanın, nesne yerleştirme için daha efektif bir tasarım seçimi olduğunu; nöral ağ modeline sınıf kodlamalarının ayrıca verilmesinin daha ağır bir dikkat mekanizması içeren mimarilerde daha etkili olduğunu ve önerdiğimiz ısı haritasından yerleştirme konumlarının çıkarım yönteminin literatürdeki yöntemden daha etkili olduğunu ortaya koymaktadır.

Özet (Çeviri)

Image composition is one of the generative tasks of computer vision, that finds applications in fields such as synthetic data generation and advertising. It can be defined as constructing realistic novel images from given image components. Image composition encompasses several subtasks, including harmonization, object placement, and shadow generation. Object placement is the task of placing a given foreground object onto a given background in a logical manner, taking into account factors such as object size, supporting ground, and occlusion. Object placement literature has evolved alongside the advancements in neural network technologies. With these advancements, convolutional neural networks (CNNs), generative adversarial networks (GANs), and transformers have become the key components of state-of-the-art approaches. Among these, transformer-embodying approaches give the best performance, due to the help of attention mechanisms. These attention-based approaches in the field follow two paths: one involves regressing the transformation vector by utilizing cross-attention, while the other produces a placement-rationality heatmap to find the best position to place the object, benefiting from self-attention. However, a comprehensive performance analysis between these two approaches is lacking in the literature. In this work, we examine and compare the performances of these two models to provide insight into the next steps for the field. Additionally, we explore the effect of providing foreground object class encodings to attention-based object placement methods. Furthermore, we have analyzed placement extraction procedures from placement-rationality heatmap output and proposed a new procedure. Results show that employing a cross-attention mechanism while regressing the transformation vector is the superior design choice for object placement neural models. Furthermore, findings indicate that providing class encodings to models benefits the architecture with a more complex attention mechanism better. Lastly, it is also seen from the results that the proposed placement extraction procedure is more effective than the one employed in the literature.

Benzer Tezler

  1. Uzman sistemler ve ulaştırma alanında kullanımları

    Expert systems and using them in transportation

    A.BURAK GÖKTEPE

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. HALUK GERÇEK

  2. Task-based automatic camera placement

    Görev yönelimli otomatik kamera yerleşimi

    MUSTAFA KABAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. TOLGA K. ÇAPIN

  3. Design and tele-impedance control of a variable stiffness transradial hand prosthesis

    Değişken esnekliğe sahip dirsek altı el protezinin tasarımı ve uzaktan empedans kontrolü

    ELİF HOCAOĞLU ÇETİNSOY

    Doktora

    İngilizce

    İngilizce

    2014

    BiyoteknolojiSabancı Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    DOÇ. DR. VOLKAN PATOĞLU

  4. Yüksek binalarda asansörlerin tasarımı ve değerlendirilmesi için bir uzman sistem

    An Expert system for the design and evaluation of the elevators in high buildings

    NURAY ÇANKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Mimarlıkİstanbul Teknik Üniversitesi

    DOÇ. DR. GÜLEN ÇAĞDAŞ

  5. Çeşitli büyüklüklerdeki alışveriş mekanlarını aydınlatma sistemleri tasarım ilkeleri

    Designing principles of lighting systems in store designs of various types

    HALE İKİZLER

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. MEHMET Ş. KÜÇÜKDOĞU