Geri Dön

Spherical vision transformers for audio-visual saliency prediction in 360◦ videos

360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri

  1. Tez No: 836730
  2. Yazar: MERT ÇÖKELEK
  3. Danışmanlar: DOÇ. DR. İBRAHİM AYKUT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Bilim Dalı
  13. Sayfa Sayısı: 68

Özet

Belirginlik tahmini, sahnelerdeki algısal olarak önemli bölgeleri vurgulamak için insanın görsel-işitsel dikkat mekanizmalarını modellemeyi amaçlamaktadır. Literatürde bu sorun ilk olarak sahne özelliklerine göre: statik (resimler için), dinamik (videolar için) ve görsel-işitsel belirginlik tahmini olarak üç dal altında ele alınmıştır. Son zamanlarda, sanal gerçeklik (VR) teknolojilerine artan ilginin sonucunda, tam görüş alanını yakalayan çok yönlü videolar (ODV'ler), bilgisayar görüsünde 360◦ belirginlik tahminine önem kazanmıştır. Bununla birlikte, insanların 360◦ sahnelerde nereye baktığını tahmin etmek, 360◦ sahnelerin temsili, küresel bozulma, yüksek çözünürlük ve sınırlı miktarda etiketli veri de dahil olmak üzere yeni zorluklar sunar. Bu tezde, SalViT360 adı verilen çok yönlü videolar için yeni bir görüntü dönüştürücü tabanlı belirginlik tahmin modeli önerilmişir. 360◦ video anlayışı için teğet görüntü temsilleri arasında küresel geometriye duyarlı uzay-zamansal bir öz-dikkat mekanizması sunulmuştur. Geri projeksiyon sonrasında tahminlerdeki bozulmaları azaltmak amacıyla projeksiyon tabanlı 360◦ yoğun tahmin modelleri için tutarlılık bazlı denetimsiz bir kayıp fonksiyonu sunulmuştur. Bu yaklaşım, bozulmamış 360◦ belirginlik tahmini için teğet görüntüleri kullanan ilk yaklaşımdır. Son olarak, birleşik bir 360◦ görsel-işitsel belirginlik tahmin modeli için bir boyutlu ve uzamsal ses modalitelerini dahil etmek üzere video belirginliği tahmin modeli SalViT360, görsel-işitsel adaptörlerle genişletilerek SalViT360-AV sunulmuştur. Dört 360◦ belirginlik veri seti üzerindeki deneysel sonuçlarımız, SalViT360 ve SalViT360-AV'nin en son teknolojiyle karşılaştırıldığında etkinliğini göstermektedir.

Özet (Çeviri)

Saliency prediction aims to model human audio-visual attention mechanisms to highlight the perceptually important regions in the scenes. This problem was first addressed in the literature under three branches based on the scene characteristics: static (for images), dynamic (for videos), and audio-visual saliency prediction. Due to the growing interest in virtual reality (VR), omnidirectional videos (ODVs) that capture the full field-of-view have gained 360◦ saliency prediction importance in computer vision. However, predicting where humans look in 360◦ scenes presents novel challenges, including the representation of 360◦ scenes regarding spherical distortion, high resolution, and the limited amount of annotated data. This thesis proposes a novel vision-transformer-based saliency prediction model named SalViT360 for omnidirectional videos. We introduce a spherical geometry-aware spatio-temporal self-attention mechanism among tangent image representations for effective omnidirectional video understanding. We present a consistency-based unsupervised regularization term for projection-based 360◦ dense-prediction models to reduce artefacts in the predictions after inverse projection. Our approach is the first to employ tangent images for undistorted omnidirectional saliency prediction. Lastly, we propose SalViT360-AV by extending our video saliency prediction model with audio-visual adapters to incorporate mono and spatial audio modalities for a unified 360◦ audiovisual saliency prediction model. Our experimental results on four ODV saliency datasets demonstrate the effectiveness of SalViT360 and SalViT360-AV compared to the state-of-the-art.

Benzer Tezler

  1. Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video

    Omnidireksiyonel görüntü ve video'nun sesli-görsel kalite değerlendirmesi için küresel görüntü dönüştürücüler

    NAFISEH JABBARITOFIGHI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  2. Katarakt cerrahisinde kullanılan sferik monoblok İOL, asferik monoblok İOL ve genişletilmiş odak derinlikli asferik İOL'un görsel performanslarının karşılaştırılması

    Comparison of the visual performances of spheric monoblock iol, aspheric monoblock İOL and extended focal depth aspheric İOL used in cataract surgery

    MESUT AVCI

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Göz HastalıklarıSüleyman Demirel Üniversitesi

    Göz Hastalıkları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UMUT KARACA

  3. 3d reconstruction using a spherical spiral scan camera

    Küresel spiral tarayıcı kamera ile 3b geriçatım

    MUSTAFA VATANSEVER

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SITKI AYTAÇ

    YRD. DOÇ. DR. ŞEVKET GÜMÜŞTEKİN