Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video
Omnidireksiyonel görüntü ve video'nun sesli-görsel kalite değerlendirmesi için küresel görüntü dönüştürücüler
- Tez No: 850991
- Danışmanlar: DOÇ. DR. İBRAHİM AYKUT ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 87
Özet
Sanal Gerçeklik (SG), son yıllarda eğlence, eğitim ve eğitim alanlarında popülerleşerek önemli bir ilgi alanı haline gelmiştir. Küresel doğası ve geniş görüş alanları nedeniyle, geleneksel 2D görsel değerlendirme yöntemlerini zorlayan etkileşimli 360 içeriklerdeki bu artış, özelleştirilmiş görsel kalite değerlendirme (KD) yöntemlerine olan gereksinimleri de artırmıştır. Bu tez, bilgisayarlı görüntüde görüntü dönüştürü cülerinin başarısından ilham alarak, ST360IQ ve LGT360IQ adlı iki KD modeller önermektedir. Küresel Görüntü Dönüştürücüsü tabanlı bu modeller, çok yönlü görüntüleri değerlendirmek için özelleştirilmiştir. ST360IQ, teğet görüntü temsili kullanarak, dönüştürücü performansını görsel belirginlik özellikleri ile güçlendirmekte ve küresel içerik özelliklerinin bozulmadan yeniden üretilmesi için geometrik ve kaynak gömme bilgilerini entegre etmektedir. Ek olarak, LG360IQA modeli ile birlikte, kapsamlı bir değerlendirme için yerel ve küresel düzeydeki bilgileri birleştiren, yukarıdan aşağıya ve aşağıdan yukarıya dikkat mekanizmalarıyla iki akışlı bir yapı tanıtılmıştır. Görüntü dönüştürücüleri tabanlı ST360IQ ve LGT360IQ modellerinin her ikisi de, üç veri kümesinde en iyi performansı vererek, 360 görüntü kalitesi değerlendirmesindeki etkinliklerini göstermektedir. Etkileşimli içeriklerde bulunan uzamsal ses, ambisonik ses içeren bir veri kümesine olan ihtiyacı vurgulamaktadır. Bu veri kümesi, önemli ses bilgilerini entegre ederek video kalitesi değerlendirmesi alanındaki araştırmalara katkıda bulunacaktır. Literatürdeki bu veri kümesi boşluğunu doldurmak için, bir öznel kalite değerlendirme deneyi yapılmış, ve YT360-VQA veri kümesi toplanmıştır. Veri kümemizdeki videolar kullanıcılar tarafından oluşturulduğu için, bilinçli olarak içerdikleri gerçekçi bozulmalar ile gerçek dünya senaryolarını simüle ettikleri vurgulanmalıdır. Sonuç olarak, bu araştırma uzamsal sesin etkileşimli küresel videoların kalite değerlendirmesindeki etkisini nesnel olarak analiz etmeyi amaçlamış ve genel kullanıcı deneyimi üzerindeki etkisini göstermiştir.
Özet (Çeviri)
In recent years, Virtual Reality (VR) has gained significant attention and has become popular across entertainment, education, and training. This surge necessitates a specialized Quality Assessment(QA) framework designed for evaluating immersive 360 content, challenging traditional 2D visual assessment methods due to the spherical nature and wider field of view. Drawing inspiration from Vision Transformers (ViTs)' success in computer vision, this thesis proposes two QA models: ST360IQ and LGT360IQ. These models, based on Spherical Vision Transformers, specifically evaluate omnidirectional image quality. ST360IQ uses tangent image representation, enhancing transformer encoder performance with saliency information, and integrates geometric and source embeddings for replication of spherical content attributes. Additionally, the LG360IQA model introduces a dual-branch structure, combining local-level and global-level information for comprehensive evaluation through top-down and bottom-up attention mechanisms. Both ST360IQ and LGT360IQ ViT-based models achieve state-of-the-art performance across three datasets, showcasing their effectiveness in 360 Image Quality Assessment (IQA). The significance of spatial audio in immersive content underscores the need for a dataset containing ambisonic audio. This dataset would facilitate research in Video Quality Assessment (VQA) by integrating crucial audio information. To bridge this gap, a subjective quality assessment experiment is conducted to collect the YT360-VQA dataset. Remarkably, this user-generated dataset deliberately includes authentic distortions, simulating real-world scenarios. Ultimately, this research aims to objectively analyze ambisonic audio's impact on spherical video quality assessment within immersive content experiences, recognizing its significance in shaping the overall visual quality.
Benzer Tezler
- Spherical vision transformers for audio-visual saliency prediction in 360◦ videos
360◦ videolarda görsel-işitsel belirginlik tahmini için küresel görüntü dönüştürücüleri
MERT ÇÖKELEK
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM AYKUT ERDEM
- The journey of microplasticsfrom the depth of the seato the gut of zooplankton
Başlık çevirisi yok
RIDVAN KAAN GURSES
- Katarakt cerrahisinde kullanılan sferik monoblok İOL, asferik monoblok İOL ve genişletilmiş odak derinlikli asferik İOL'un görsel performanslarının karşılaştırılması
Comparison of the visual performances of spheric monoblock iol, aspheric monoblock İOL and extended focal depth aspheric İOL used in cataract surgery
MESUT AVCI
Tıpta Uzmanlık
Türkçe
2022
Göz HastalıklarıSüleyman Demirel ÜniversitesiGöz Hastalıkları Ana Bilim Dalı
DR. ÖĞR. ÜYESİ UMUT KARACA
- Measurement and map building with omnidirectional vision system based on structured light
Başlık çevirisi yok
CAN SATILMIŞ TOPRAK
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeijing Institute of TechnologyPROF. HONGHUI ZHENG
- 3d reconstruction using a spherical spiral scan camera
Küresel spiral tarayıcı kamera ile 3b geriçatım
MUSTAFA VATANSEVER
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SITKI AYTAÇ
YRD. DOÇ. DR. ŞEVKET GÜMÜŞTEKİN