Geri Dön

Learned frame prediction for video prediction

Video sıkıştırma için öğrenilmiş çerçeve tahmini

  1. Tez No: 531218
  2. Yazar: SERKAN SÜLÜN
  3. Danışmanlar: PROF. DR. AHMET MURAT TEKALP
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Tüm video sıkıştırma algoritmaları içinde en önemli metotlardan biri haraket dengelemedir. Video çerçevesi tahmini, hareket dengeleme ile benzer bir problemdir. Son yıllarda çerçeve tahmini, derin sinir ağları (DSA) tarafından yapılmaktadır. Bu tezde öğrenilmiş çerçeve tahmini yapmak için bir DSA yaratıyoruz ve ek olarak bu DSA'yı kapsayan bir video kodlayıcı üretiyoruz. DSA'mızı iki farklı amaç doğrultusunda iki farklı yöntem ile eğitiyoruz. İlk olarak çerçeve tahmini ve video sıkıştırmada en yüksek doruk sinyal gürültü oranı (PSNR) değerlerini elde etmek amacıyla DSA'mızı ortalama karesel hatayı (OKH) baz alarak eğitiyoruz. Ardından görsel olarak daha gerçekçi çerçeve tahminleri yapmak için çekişmeli eğitim yöntemini kullanıyoruz. Çerçeve tahmininde, yöntemimizi, referans yöntemler olan çerçeve farkı ve 16x16 blok hareket dengeleme ile karşılaştırıyoruz. Video sıkıştırmada, karşılaştırmaya x264 video kodlayıcıyı da dahil ediyoruz. Çerçeve tahmininde, çekişmeli eğitimin, OKH ile eğilmiş DSA'ya göre daha keskin ve gerçekçi çerçeveler ürettiğini; ancak video sıkıştırmada sürekli olarak daha başarısız olduğunu gösteriyoruz. Bu sonuç, çekişmeli eğitimin insan gözüne daha hoş görünen video çerçeveleri üretmesine rağmen video sıkıştırmada kullanılmaması gerektiğini kanıtlıyor. Ek olarak, OKH ile eğitilen DSA, çerçeve tahmininde yüksek doğruluklu sonuçlar üretiyor; nicel sonuçlarda, iki problem için de, tüm videolarda diğer yöntemlerle kıyaslanabilir sonuçlar veriyor ve ortalama başarıda diğer yöntemleri geçiyor. Daha detaylı olarak, yüksek hareketli videolarda, öğrenilmiş çerçeve tahmini, bithızı-bozulma performansında diğer yöntemleri geçiyor; ve düşük hareketli videolarda x264 ile yarışabilir bir sonuç üretiyor.

Özet (Çeviri)

Motion compensation is one of the most essential methods for any video compression algorithm. Video frame prediction is a task analogous to motion compensation. In recent years, the task of frame prediction is undertaken by deep neural networks (DNNs). In this thesis we create a DNN to perform learned frame prediction and additionally implement a codec that contains our DNN. We train our network using two methods for two di erent goals. Firstly we train our network based on mean square error (MSE) only, aiming to obtain highest PSNR values at frame prediction and video compression. Secondly we use adversarial training to produce visually more realistic frame predictions. For frame prediction, we compare our method with the baseline methods of frame di erence and 16x16 block motion compensation. For video compression we further include x264 video codec in the comparison. We show that in frame prediction, adversarial training produces frames that look sharper and more realistic, compared MSE based training, but in video compression it consistently performs worse. This proves that even though adversarial training is useful for generating video frames that are more pleasing to the human eye, they should not be employed for video compression. Moreover, our network trained with MSE produces accurate frame predictions, and in quantitative results, for both tasks, it produces comparable results in all videos and outperforms other methods on average. More speci cally, learned frame prediction outperforms other methods in terms of rate-distortion performance in case of high motion video, while the rate-distortion performance of our method is competitive with x264 in low motion video.

Benzer Tezler

  1. Video görüntülerinden trafik kazası riskini gerçek zamanlı belirleyen bir sistem tasarımı

    A system design for determining traffic accident risk from real-time video images

    UYGAR ER

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. M. ELİF KARSLIGİL

  2. Target aware visual object tracking

    Hedef farkındalığıyla görsel nesne takibi

    CANER ÖZER

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL KALYONCU

  3. Reduced-order modelling of shallow water equations

    Sığ sularda dalga denklemleri için model indirgeme yöntemleri

    SÜLEYMAN YILDIZ

    Doktora

    İngilizce

    İngilizce

    2021

    Fizik ve Fizik MühendisliğiOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    PROF. DR. BÜLENT KARASÖZEN

  4. Lise son sınıf öğrencilerinin yükseköğretime öğrenci seçme sistemine ilişkin görüşleri ve tutumlarını etkileyen faktörler

    The factors that affect the senior high school students? opinions and attitudes towards the student selection and placement system (SSPS) in higher education

    ÖZGE BAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimAnkara Üniversitesi

    Eğitimde Ölçme ve Değerlendirme Ana Bilim Dalı

    YRD. DOÇ. DR. ÖMER KUTLU

  5. Hierarchical multitask learning for language modeling with transformers

    Hiyerarşik çoklu görev öğrenimi yaklaşımı ile dönüştürücülerde dil modelleme

    ÇAĞLA AKSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Mühendislik BilimleriBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR