Spherical vision transformers for audio-visual saliency prediction in 360◦ videos

360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri

PDF İndir

Tez No: 836730
Yazar: MERT ÇÖKELEK
Danışmanlar: DOÇ. DR. İBRAHİM AYKUT ERDEM
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Yapay Zeka Bilim Dalı
Sayfa Sayısı: 68

Özet

Belirginlik tahmini, sahnelerdeki algısal olarak önemli bölgeleri vurgulamak için insanın görsel-işitsel dikkat mekanizmalarını modellemeyi amaçlamaktadır. Literatürde bu sorun ilk olarak sahne özelliklerine göre: statik (resimler için), dinamik (videolar için) ve görsel-işitsel belirginlik tahmini olarak üç dal altında ele alınmıştır. Son zamanlarda, sanal gerçeklik (VR) teknolojilerine artan ilginin sonucunda, tam görüş alanını yakalayan çok yönlü videolar (ODV'ler), bilgisayar görüsünde 360◦ belirginlik tahminine önem kazanmıştır. Bununla birlikte, insanların 360◦ sahnelerde nereye baktığını tahmin etmek, 360◦ sahnelerin temsili, küresel bozulma, yüksek çözünürlük ve sınırlı miktarda etiketli veri de dahil olmak üzere yeni zorluklar sunar. Bu tezde, SalViT360 adı verilen çok yönlü videolar için yeni bir görüntü dönüştürücü tabanlı belirginlik tahmin modeli önerilmişir. 360◦ video anlayışı için teğet görüntü temsilleri arasında küresel geometriye duyarlı uzay-zamansal bir öz-dikkat mekanizması sunulmuştur. Geri projeksiyon sonrasında tahminlerdeki bozulmaları azaltmak amacıyla projeksiyon tabanlı 360◦ yoğun tahmin modelleri için tutarlılık bazlı denetimsiz bir kayıp fonksiyonu sunulmuştur. Bu yaklaşım, bozulmamış 360◦ belirginlik tahmini için teğet görüntüleri kullanan ilk yaklaşımdır. Son olarak, birleşik bir 360◦ görsel-işitsel belirginlik tahmin modeli için bir boyutlu ve uzamsal ses modalitelerini dahil etmek üzere video belirginliği tahmin modeli SalViT360, görsel-işitsel adaptörlerle genişletilerek SalViT360-AV sunulmuştur. Dört 360◦ belirginlik veri seti üzerindeki deneysel sonuçlarımız, SalViT360 ve SalViT360-AV'nin en son teknolojiyle karşılaştırıldığında etkinliğini göstermektedir.

Özet (Çeviri)

Saliency prediction aims to model human audio-visual attention mechanisms to highlight the perceptually important regions in the scenes. This problem was first addressed in the literature under three branches based on the scene characteristics: static (for images), dynamic (for videos), and audio-visual saliency prediction. Due to the growing interest in virtual reality (VR), omnidirectional videos (ODVs) that capture the full field-of-view have gained 360◦ saliency prediction importance in computer vision. However, predicting where humans look in 360◦ scenes presents novel challenges, including the representation of 360◦ scenes regarding spherical distortion, high resolution, and the limited amount of annotated data. This thesis proposes a novel vision-transformer-based saliency prediction model named SalViT360 for omnidirectional videos. We introduce a spherical geometry-aware spatio-temporal self-attention mechanism among tangent image representations for effective omnidirectional video understanding. We present a consistency-based unsupervised regularization term for projection-based 360◦ dense-prediction models to reduce artefacts in the predictions after inverse projection. Our approach is the first to employ tangent images for undistorted omnidirectional saliency prediction. Lastly, we propose SalViT360-AV by extending our video saliency prediction model with audio-visual adapters to incorporate mono and spatial audio modalities for a unified 360◦ audiovisual saliency prediction model. Our experimental results on four ODV saliency datasets demonstrate the effectiveness of SalViT360 and SalViT360-AV compared to the state-of-the-art.

Benzer Tezler

Tez No
850991
Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video
Omnidireksiyonel görüntü ve video'nun sesli-görsel kalite değerlendirmesi için küresel görüntü dönüştürücüler
NAFISEH JABBARITOFIGHI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM AYKUT ERDEM
Tez No
770061
The journey of microplasticsfrom the depth of the seato the gut of zooplankton
Başlık çevirisi yok
RIDVAN KAAN GURSES
Doktora
İngilizce
2022
Deniz Bilimleri Tokyo University of Marine Science and Technology
DR. YUJİ TANAKA
Tez No
751568
Katarakt cerrahisinde kullanılan sferik monoblok İOL, asferik monoblok İOL ve genişletilmiş odak derinlikli asferik İOL'un görsel performanslarının karşılaştırılması
Comparison of the visual performances of spheric monoblock iol, aspheric monoblock İOL and extended focal depth aspheric İOL used in cataract surgery
MESUT AVCI
Tıpta Uzmanlık
Türkçe
2022
Göz Hastalıkları Süleyman Demirel Üniversitesi
Göz Hastalıkları Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UMUT KARACA
Tez No
402799
Measurement and map building with omnidirectional vision system based on structured light
Başlık çevirisi yok
CAN SATILMIŞ TOPRAK
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Beijing Institute of Technology
PROF. HONGHUI ZHENG
Tez No
184909
3d reconstruction using a spherical spiral scan camera
Küresel spiral tarayıcı kamera ile 3b geriçatım
MUSTAFA VATANSEVER
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Yüksek Teknoloji Enstitüsü
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SITKI AYTAÇ
YRD. DOÇ. DR. ŞEVKET GÜMÜŞTEKİN

Geri Dön