Optimizing learned image compression models for complexity and rate-distortion-perception performance

Karmaşıklık ve hız-bozulma-algı performansı için öğrenilmiş imge sıkıştırma modellerini eniyileme

PDF İndir

Tez No: 836642
Yazar: OGÜN KIRMEMİŞ
Danışmanlar: PROF. DR. AHMET MURAT TEKALP
Tez Türü: Doktora
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
Sayfa Sayısı: 71

Özet

Son zamanlarda, öğrenilmiş görüntü sıkıştırma modellerinin hız-bozulma performansı, öğrenilmiş entropi ve bağlam modellerindeki son gelişmeler sayesinde geleneksel kodlayıcı/çözümleyici performansını aşmıştır. Ancak, mevcut son teknolojiye sahip öğrenilmiş modeller, geleneksel görüntü kodlayıcı/çözümleyicilerine kıyasla daha yüksek işlem karmaşıklığı göstermekte ve daha uzun işlem süreleri sunmaktadır. Dahası, modellerin sadece hız-bozulma performansı için optimize edilmesi, en iyi algısal görüntü kalitesini sağlamaz. Bu tez, bu konuları ele almaktadır. Bu tezin katkılarından biri, hem nesnel hem de öznel değerlendirme kriterlerini, aynı zamanda yürütme zamanı verimliliğini de göz önünde bulundurarak, aktivasyon fonksiyonunun görüntü sıkıştırmanın performansı üzerindeki etkisini incelemektir. Yaygın olarak kullanılan genelleştirilmiş bölücü normalizasyon (GDN) aktivasyon fonksiyonu, yüksek işlem karmaşıklığının nedenlerinden biridir. Bulgularımız, HardShrinkage aktivasyonu ile oluşturulan gizli değişkenlerin, bir Laplace dağılımı ile daha yakından uyum sağladığını ortaya koymaktadır. Yöntemimiz, azaltılmış işlem karmaşıklığı ile birlikte, karşılaştırılabilir hız-bozulma sonuçları ve üstün görsel performans elde etmektedir. Bu tezin ikinci katkısı, hız-bozulma-algı (RDP) performansının eniyilenmesine yönelik pratik yaklaşımların keşfedilmesi üzerinedir. Bugüne kadar, hız-bozulma optimizasyonu (RDO) konusunda karesel ortalama hatasının (MSE) kullanımı, görüntü ve video sıkıştırma alanında standart uygulama olmuştur. Bu, en yüksek sinyal gürültü oranı (PSNR) aracılığıyla sonuçların nicel bir ölçümünü sunarak kodlayıcı-çözümleyici performansının değerlendirilmesi için faydalı olmuştur. Ancak, PSNR'nin görüntülerin algısal kalitesini doğru bir şekilde yansıtmadığı genel olarak kabul edil-miştir, bu da RDO'nun algısal kalite açısından kodlayıcı/çözümleyici eniyilemesi için uygun olmadığını göstermektedir. Yakın zamanda, hız-bozulma-algı (RDP) kavramı, Blau ve Michaeli tarafından titizlikle tanımlanmıştır [1]. Ancak, RDP fonksiyonunu uygulanabilir bir şekilde istenen bir seviyede belirlemek için hala pratik bir metodoloji eksikliği bulunmaktadır. Hızı sabit tutarak algı-bozulma analizini mümkün hale getirecek pratik bir yöntem öneriyoruz. Bu yaklaşım, belirlenmiş bit hızlarında kodlayıcı/çözümleyici'nin algısal açıdan değerlendirilmesine izin verir. Ek olarak, bir imge kümesini istenen bir RDP noktasında sıkıştırma problemini tam sayı lineer programlama modeline dönüştüren bir yöntem sunuyoruz. Deneysel sonuçlarımız, öğrenilmiş görüntü sıkıştırmasında RDP'nin pratik analizi hakkında temel içgörüler sağlar.

Özet (Çeviri)

Lately, the rate-distortion performance of learned image compression models has surpassed that of traditional codecs by the virtue of recent advancements in learned entropy and context models. However, state-of-the-art learned models currently exhibit higher complexity and slower processing times compared to conventional image codecs. Furthermore, optimization of models for just rate-distortion performance as currently done does not result in the best perceptual image quality. This thesis addresses these issues. One of the contributions of this thesis is to explore the impact of the activation function on the performance of image compression, considering both objective and subjective evaluation criteria, as well as runtime efficiency. The widely used generalized divisive normalization (GDN) activation function is one of the reasons for its high complexity. Our findings reveal that the latent variables generated by hard shrinkage activation align more closely with a Laplacian distribution. Our method achieves comparable rate-distortion results, along with superior visual performance, at reduced computational complexity. The second contribution of this thesis lies in the exploration of practical approaches to the optimization of rate-distortion-perception (RDP) performance. To date, the use of mean squared error (MSE) in rate-distortion optimization (RDO) has remained the standard practice in the field of image and video compression. This has been beneficial for gauging codec performance by offering a quantitative measurement of results through peak-signal-to-noise ratio (PSNR). However, it's broadly accepted that PSNR does not accurately reflect the perceptual quality of images, making RDO unsuitable for codec optimization in terms of perceptual quality. Recently, the notion of RDP has been formally defined by Blau and Michaeli [1]. Yet, there's still a lack of practical methodology for setting the RDP function at a desired level in a feasible way. We propose a practical method to enable perception-distortion analysis by keeping the rate constant. This approach allows for a principled perceptual evaluation of the codec at predetermined bitrates. Additionally, we present a method for compressing a set of images at a desired RDP point by converting the problem to an integer linear programming model. Our experimental results provide essential insights into the practical analysis of RDP in learned image compression.

Benzer Tezler

Tez No
905209
Color optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression
Öğrenilmiş görüntü sıkıştırmada R-D performansını bozmadan daha keskin görüntüler elde etmek için renk optimizasyonu ve difüzyon tabanlı son işleme
ÖKKEŞ UĞUR ULAŞ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET MURAT TEKALP
DOÇ. DR. İBRAHİM AYKUT ERDEM
PROF. DR. MEHMET ERKUT ERDEM
Tez No
658994
Derin öğrenme ile görüntülerde gürültü giderme
Image denoising with deep learning
SERCAN SATICI
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
Tez No
695515
A novel learning-based image matching approach based on mutual nearest neighbor search with ratio test
Oran testi ile karşılıklı en yakın komşu aramasına dayanan öğrenmeye dayalı yeni bir görüntü eşleştirme yaklaşımı
UFUK EFE
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliği Orta Doğu Teknik Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH AYDIN ALATAN
Tez No
755027
Deep unsupervised learning for accelerated mri reconstruction
Derin denetimsiz öğrenme ile hızlandırılmış mrg rekonstrüksiyonu
YILMAZ KORKMAZ
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. TOLGA ÇUKUR
Tez No
561474
Yapay sinir ağları ile optik karakter tanıma
Optical character recognition with artificial neural network
MURATCAN UZTEMUR
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. AFİFE LEYLA GÖREN SÜMER

Geri Dön