Geri Dön

Optimizing learned image compression models for complexity and rate-distortion-perception performance

Karmaşıklık ve hız-bozulma-algı performansı için öğrenilmiş imge sıkıştırma modellerini eniyileme

  1. Tez No: 836642
  2. Yazar: OGÜN KIRMEMİŞ
  3. Danışmanlar: PROF. DR. AHMET MURAT TEKALP
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Son zamanlarda, öğrenilmiş görüntü sıkıştırma modellerinin hız-bozulma performansı, öğrenilmiş entropi ve bağlam modellerindeki son gelişmeler sayesinde geleneksel kodlayıcı/çözümleyici performansını aşmıştır. Ancak, mevcut son teknolojiye sahip öğrenilmiş modeller, geleneksel görüntü kodlayıcı/çözümleyicilerine kıyasla daha yüksek işlem karmaşıklığı göstermekte ve daha uzun işlem süreleri sunmaktadır. Dahası, modellerin sadece hız-bozulma performansı için optimize edilmesi, en iyi algısal görüntü kalitesini sağlamaz. Bu tez, bu konuları ele almaktadır. Bu tezin katkılarından biri, hem nesnel hem de öznel değerlendirme kriterlerini, aynı zamanda yürütme zamanı verimliliğini de göz önünde bulundurarak, aktivasyon fonksiyonunun görüntü sıkıştırmanın performansı üzerindeki etkisini incelemektir. Yaygın olarak kullanılan genelleştirilmiş bölücü normalizasyon (GDN) aktivasyon fonksiyonu, yüksek işlem karmaşıklığının nedenlerinden biridir. Bulgularımız, HardShrinkage aktivasyonu ile oluşturulan gizli değişkenlerin, bir Laplace dağılımı ile daha yakından uyum sağladığını ortaya koymaktadır. Yöntemimiz, azaltılmış işlem karmaşıklığı ile birlikte, karşılaştırılabilir hız-bozulma sonuçları ve üstün görsel performans elde etmektedir. Bu tezin ikinci katkısı, hız-bozulma-algı (RDP) performansının eniyilenmesine yönelik pratik yaklaşımların keşfedilmesi üzerinedir. Bugüne kadar, hız-bozulma optimizasyonu (RDO) konusunda karesel ortalama hatasının (MSE) kullanımı, görüntü ve video sıkıştırma alanında standart uygulama olmuştur. Bu, en yüksek sinyal gürültü oranı (PSNR) aracılığıyla sonuçların nicel bir ölçümünü sunarak kodlayıcı-çözümleyici performansının değerlendirilmesi için faydalı olmuştur. Ancak, PSNR'nin görüntülerin algısal kalitesini doğru bir şekilde yansıtmadığı genel olarak kabul edil-miştir, bu da RDO'nun algısal kalite açısından kodlayıcı/çözümleyici eniyilemesi için uygun olmadığını göstermektedir. Yakın zamanda, hız-bozulma-algı (RDP) kavramı, Blau ve Michaeli tarafından titizlikle tanımlanmıştır [1]. Ancak, RDP fonksiyonunu uygulanabilir bir şekilde istenen bir seviyede belirlemek için hala pratik bir metodoloji eksikliği bulunmaktadır. Hızı sabit tutarak algı-bozulma analizini mümkün hale getirecek pratik bir yöntem öneriyoruz. Bu yaklaşım, belirlenmiş bit hızlarında kodlayıcı/çözümleyici'nin algısal açıdan değerlendirilmesine izin verir. Ek olarak, bir imge kümesini istenen bir RDP noktasında sıkıştırma problemini tam sayı lineer programlama modeline dönüştüren bir yöntem sunuyoruz. Deneysel sonuçlarımız, öğrenilmiş görüntü sıkıştırmasında RDP'nin pratik analizi hakkında temel içgörüler sağlar.

Özet (Çeviri)

Lately, the rate-distortion performance of learned image compression models has surpassed that of traditional codecs by the virtue of recent advancements in learned entropy and context models. However, state-of-the-art learned models currently exhibit higher complexity and slower processing times compared to conventional image codecs. Furthermore, optimization of models for just rate-distortion performance as currently done does not result in the best perceptual image quality. This thesis addresses these issues. One of the contributions of this thesis is to explore the impact of the activation function on the performance of image compression, considering both objective and subjective evaluation criteria, as well as runtime efficiency. The widely used generalized divisive normalization (GDN) activation function is one of the reasons for its high complexity. Our findings reveal that the latent variables generated by hard shrinkage activation align more closely with a Laplacian distribution. Our method achieves comparable rate-distortion results, along with superior visual performance, at reduced computational complexity. The second contribution of this thesis lies in the exploration of practical approaches to the optimization of rate-distortion-perception (RDP) performance. To date, the use of mean squared error (MSE) in rate-distortion optimization (RDO) has remained the standard practice in the field of image and video compression. This has been beneficial for gauging codec performance by offering a quantitative measurement of results through peak-signal-to-noise ratio (PSNR). However, it's broadly accepted that PSNR does not accurately reflect the perceptual quality of images, making RDO unsuitable for codec optimization in terms of perceptual quality. Recently, the notion of RDP has been formally defined by Blau and Michaeli [1]. Yet, there's still a lack of practical methodology for setting the RDP function at a desired level in a feasible way. We propose a practical method to enable perception-distortion analysis by keeping the rate constant. This approach allows for a principled perceptual evaluation of the codec at predetermined bitrates. Additionally, we present a method for compressing a set of images at a desired RDP point by converting the problem to an integer linear programming model. Our experimental results provide essential insights into the practical analysis of RDP in learned image compression.

Benzer Tezler

  1. Color optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression

    Öğrenilmiş görüntü sıkıştırmada R-D performansını bozmadan daha keskin görüntüler elde etmek için renk optimizasyonu ve difüzyon tabanlı son işleme

    ÖKKEŞ UĞUR ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET MURAT TEKALP

    DOÇ. DR. İBRAHİM AYKUT ERDEM

    PROF. DR. MEHMET ERKUT ERDEM

  2. Derin öğrenme ile görüntülerde gürültü giderme

    Image denoising with deep learning

    SERCAN SATICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  3. A novel learning-based image matching approach based on mutual nearest neighbor search with ratio test

    Oran testi ile karşılıklı en yakın komşu aramasına dayanan öğrenmeye dayalı yeni bir görüntü eşleştirme yaklaşımı

    UFUK EFE

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH AYDIN ALATAN

  4. Deep unsupervised learning for accelerated mri reconstruction

    Derin denetimsiz öğrenme ile hızlandırılmış mrg rekonstrüksiyonu

    YILMAZ KORKMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA ÇUKUR

  5. Yapay sinir ağları ile optik karakter tanıma

    Optical character recognition with artificial neural network

    MURATCAN UZTEMUR

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. AFİFE LEYLA GÖREN SÜMER