Geri Dön

Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video

Omnidireksiyonel görüntü ve video'nun sesli-görsel kalite değerlendirmesi için küresel görüntü dönüştürücüler

  1. Tez No: 850991
  2. Yazar: NAFISEH JABBARITOFIGHI
  3. Danışmanlar: DOÇ. DR. İBRAHİM AYKUT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

Sanal Gerçeklik (SG), son yıllarda eğlence, eğitim ve eğitim alanlarında popülerleşerek önemli bir ilgi alanı haline gelmiştir. Küresel doğası ve geniş görüş alanları nedeniyle, geleneksel 2D görsel değerlendirme yöntemlerini zorlayan etkileşimli 360 içeriklerdeki bu artış, özelleştirilmiş görsel kalite değerlendirme (KD) yöntemlerine olan gereksinimleri de artırmıştır. Bu tez, bilgisayarlı görüntüde görüntü dönüştürü cülerinin başarısından ilham alarak, ST360IQ ve LGT360IQ adlı iki KD modeller önermektedir. Küresel Görüntü Dönüştürücüsü tabanlı bu modeller, çok yönlü görüntüleri değerlendirmek için özelleştirilmiştir. ST360IQ, teğet görüntü temsili kullanarak, dönüştürücü performansını görsel belirginlik özellikleri ile güçlendirmekte ve küresel içerik özelliklerinin bozulmadan yeniden üretilmesi için geometrik ve kaynak gömme bilgilerini entegre etmektedir. Ek olarak, LG360IQA modeli ile birlikte, kapsamlı bir değerlendirme için yerel ve küresel düzeydeki bilgileri birleştiren, yukarıdan aşağıya ve aşağıdan yukarıya dikkat mekanizmalarıyla iki akışlı bir yapı tanıtılmıştır. Görüntü dönüştürücüleri tabanlı ST360IQ ve LGT360IQ modellerinin her ikisi de, üç veri kümesinde en iyi performansı vererek, 360 görüntü kalitesi değerlendirmesindeki etkinliklerini göstermektedir. Etkileşimli içeriklerde bulunan uzamsal ses, ambisonik ses içeren bir veri kümesine olan ihtiyacı vurgulamaktadır. Bu veri kümesi, önemli ses bilgilerini entegre ederek video kalitesi değerlendirmesi alanındaki araştırmalara katkıda bulunacaktır. Literatürdeki bu veri kümesi boşluğunu doldurmak için, bir öznel kalite değerlendirme deneyi yapılmış, ve YT360-VQA veri kümesi toplanmıştır. Veri kümemizdeki videolar kullanıcılar tarafından oluşturulduğu için, bilinçli olarak içerdikleri gerçekçi bozulmalar ile gerçek dünya senaryolarını simüle ettikleri vurgulanmalıdır. Sonuç olarak, bu araştırma uzamsal sesin etkileşimli küresel videoların kalite değerlendirmesindeki etkisini nesnel olarak analiz etmeyi amaçlamış ve genel kullanıcı deneyimi üzerindeki etkisini göstermiştir.

Özet (Çeviri)

In recent years, Virtual Reality (VR) has gained significant attention and has become popular across entertainment, education, and training. This surge necessitates a specialized Quality Assessment(QA) framework designed for evaluating immersive 360 content, challenging traditional 2D visual assessment methods due to the spherical nature and wider field of view. Drawing inspiration from Vision Transformers (ViTs)' success in computer vision, this thesis proposes two QA models: ST360IQ and LGT360IQ. These models, based on Spherical Vision Transformers, specifically evaluate omnidirectional image quality. ST360IQ uses tangent image representation, enhancing transformer encoder performance with saliency information, and integrates geometric and source embeddings for replication of spherical content attributes. Additionally, the LG360IQA model introduces a dual-branch structure, combining local-level and global-level information for comprehensive evaluation through top-down and bottom-up attention mechanisms. Both ST360IQ and LGT360IQ ViT-based models achieve state-of-the-art performance across three datasets, showcasing their effectiveness in 360 Image Quality Assessment (IQA). The significance of spatial audio in immersive content underscores the need for a dataset containing ambisonic audio. This dataset would facilitate research in Video Quality Assessment (VQA) by integrating crucial audio information. To bridge this gap, a subjective quality assessment experiment is conducted to collect the YT360-VQA dataset. Remarkably, this user-generated dataset deliberately includes authentic distortions, simulating real-world scenarios. Ultimately, this research aims to objectively analyze ambisonic audio's impact on spherical video quality assessment within immersive content experiences, recognizing its significance in shaping the overall visual quality.

Benzer Tezler

  1. Spherical vision transformers for audio-visual saliency prediction in 360◦ videos

    360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri

    MERT ÇÖKELEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  2. Katarakt cerrahisinde kullanılan sferik monoblok İOL, asferik monoblok İOL ve genişletilmiş odak derinlikli asferik İOL'un görsel performanslarının karşılaştırılması

    Comparison of the visual performances of spheric monoblock iol, aspheric monoblock İOL and extended focal depth aspheric İOL used in cataract surgery

    MESUT AVCI

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Göz HastalıklarıSüleyman Demirel Üniversitesi

    Göz Hastalıkları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ UMUT KARACA

  3. 3d reconstruction using a spherical spiral scan camera

    Küresel spiral tarayıcı kamera ile 3b geriçatım

    MUSTAFA VATANSEVER

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SITKI AYTAÇ

    YRD. DOÇ. DR. ŞEVKET GÜMÜŞTEKİN