Geri Dön

Video deinterlacing and demosaicing by deep learning

Derin öğrenme ile video binisimsizlestirme ve demozaikleme

  1. Tez No: 854831
  2. Yazar: RONGLEI JI
  3. Danışmanlar: PROF. DR. AHMET MURAT TEKALP
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 121

Özet

Binişimsizleştirme ve Demozaikleme, tüketici videosuna yönelik görüntü işleme hatt-ında yaygın olarak kullanılan tekniklerdir. Her iki bozulma modeli de bilindiği ve sabitlendiğinden, gerçek dünyadaki video taramasızlaştırma ve ayrıştırma, sentetik olarak bozulmuş verilerden denetimli öğrenmeye çok uygun olmasına rağmen, öğrenilmiş video Binişimsizleştirme ve Demozaikleme, gürültü giderme ve süper çözünürlük görevleriyle karşılaştırıldığında çok daha az ilgi görmüştür. Bu tez, bilinen ve sabit bozulma alt örnekleme modellerine göre uyarlanmış her iki görev için özellik hizalama, entegrasyon ve yeniden yapılandırma aşamalarını aşamalı olarak araştırmaktadır. Farklı ölçeklerde iki varyantla yeni deforme olabilen artık evrişim blokları tasarlayarak, bitişik alanlardaki özellikleri bir referans alanına (titreşimsizleştirilecek) hizalayan yeni bir çok alanlı Binişimsizleştirme mimarisine ilişkin ilk çalışmamızı sunarak başlıyoruz. Bildiğimiz kadarıyla bu çalışma, taramasızlaştırma için deforme edilebilir evrişimler aracılığıyla hizalanan çok alanlı özelliklerin füzyonunu öneren ilk çalışmadır. Daha sonra, ilk çalışmamıza dayanarak, son teknoloji ürünü süper çözünürlük yaklaşımlarını Binişimsizleştirme görevine uyarlayan, yeni, çok alanlı, tam kare hızında Binişimsizleştirme ağı öneriyoruz. Bu model, özellikleri hizalamak ve yeniden yapılandırma için hizalanmış özellikleri ilave olarak entegre etmek için deforme olabilen evrişim artık bloklarıyla kişisel dikkat mekanizmasını birleştirir. Tek ve çift alanları yönlü olarak yeniden oluşturmak için her referansın paritesine göre ayrı yeniden yapılandırma modülleri kullanılır. Kapsamlı deneysel sonuçlarımız, önerilen yöntemin hem sayısal hem de algısal performans açısından son teknoloji ürünü Binişimsizleştirme sonuçları sağladığını göstermektedir. Önceki tüm çalışmaların ardından, eksik veri içeren birden fazla destekleyici resmi, yeniden yapılandırılacak bir referans resmine hizalayarak, özellik alanındaki hem yerel hem de küresel uzay-zamansal korelasyonlardan yararlanarak, hem video Binişimsizleştirme hem de Demozaikleme için yeni bir çoklu resim mimarisi öneriyoruz. sırasıyla değiştirilmiş deforme olabilir evrişim blokları ve yeni bir artık verimli üst $k$ kişisel dikkat (kSA) bloğu. Farklı türdeki eksik verileri tahmin etmek için ayrı yeniden yapılandırma blokları kullanılır. Kapsamlı deneysel sonuçlarımız, önerilen yeni mimarinin, PSNR, SSIM ve algısal kalite açısından her iki görev için de en son teknolojiyi önemli ölçüde aşan üstün sonuçlar sağladığını göstermektedir. Deforme olabilen evrişim ve artık verimli kSA bloklarında yapılan her yeni değişikliğin faydasını doğrulamak ve göstermek için ablasyon çalışmaları sağlanmıştır.

Özet (Çeviri)

Deinterlacing and demosaicing are commonly used techniques in the image processing pipeline for consumer video. Despite the fact that real-world video deinterlacing and demosaicing are well-suited to supervised learning from synthetically degraded data because both degradation models are known and fixed, learned video deinterlacing and demosaicing have received much less attention compared to denoising and superresolution tasks. This thesis progressively explores feature alignment, integration and reconstruction stages for both tasks tailored to their known and fixed degradation subsampling patterns. We begin by presenting our initial work of a novel multi-field deinterlacing architecture that aligns features from adjacent fields to a reference field (to be deinterlaced) by designing novel deformable residual convolution blocks with two variants of different scales. To the best of our knowledge, this work is the first to propose fusion of multi-field features that are aligned via deformable convolutions for deinterlacing. Next, based on our initial work, we propose a novel multi-field full frame-rate deinterlacing network, which adapts the state of-the-art superresolution approaches to the deinterlacing task. This model incorporates self attention mechanism with deformable convolution residual blocks to align features and additively integrate aligned features for reconstruction. In order to reconstruct odd and even fields directionally, separate reconstruction modules are utilized according to the parity of each reference. Our extensive experimental results demonstrate that the proposed method provides state-of-the-art deinterlacing results in terms of both numerical and perceptual performance. Upon all these previous work, we propose a new multi-picture architecture for both video deinterlacing or demosaicing by aligning multiple supporting pictures with missing data to a reference picture to be reconstructed, benefiting from both local and global spatio-temporal correlations in the feature space using modified deformable convolution blocks and a novel residual efficient top-$k$ self-attention (kSA) block, respectively. Separate reconstruction blocks are used to estimate different types of missing data. Our extensive experimental results demonstrate that the proposed novel architecture provides superior results that significantly exceed the state-of-the-art for both tasks in terms of PSNR, SSIM, and perceptual quality. Ablation studies are provided to justify and show the benefit of each novel modification made to the deformable convolution and residual efficient kSA blocks.

Benzer Tezler

  1. Geçmeli taramadan sıralı taramaya geçiş algoritmaları ve video kalitesine etkileri

    Deinterlacing algorithms and their effects to video quality

    EBRAR KURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HERMAN SEDEF

  2. High-performance low-complexity near-lossless embedded memory compression for HDTV

    HDTVler için yüksek performanslı düşük karmaşıklıklı gömülü sıkıştırma

    OKAN PALAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. HASAN FATİH UĞURDAĞ

  3. Dynamic power consumption estimation and reduction for full search motion estimation hardware

    Tam arama hareket tahmini devrelerinde dinamik güç tüketimi tahmini ve azaltılması

    ÇAĞLAR KALAYCIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    YRD. DOÇ. DR. İLKER HAMZAOĞLU

  4. Low power motion estimation hardware designs

    Düşük güç kullanımlı haraket tahmini donanımları

    ONUR CAN ULUSEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. İLKER HAMZAOĞLU

  5. High performance hardware architectures for one bit transform based motion estimation

    1 bit dönüşümü temelli hareket tahmini algoritmaları için yüksek performanslı donanım mimarileri

    ABDULKADİR AKIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İLKER HAMZAOĞLE