Compressed domain image classification with sub-band data fusion
Sıkıştırılmış düzlemde alt-bant bileşen harmanlama yöntemi ile görüntü sınıflandırma
- Tez No: 894620
- Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN, DR. LEVENT ÇARKACIOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 62
Özet
Görüntüleme teknolojilerinin günümüzde geldiği nokta sayesinde kaydedilen fotoğraf ve videoların görüntü kalitesi oldukça fazladır. Bu durum beraberinde yüksek bellek kullanımını da getirmektedir. Görüntü kalitesinin korunarak bellek kullanım ihtiyacını azaltmak için çeşitli veri sıkıştırma algoritmaları kullanılmaktadır. Bu algoritmalar genel olarak ikiye ayrılmaktadır. Bunlar, kayıpsız sıkıştırma ve kayıplı sıkıştırmadır. Kayıpsız sıkıştırma, görüntü kalitesinin korunmasına odaklanmaktadır. Bu yöntem ile sıkıştırılan görüntülerin sadece meta verileri sıkıştırılma esnasında gözardı edilir. Böylelikle, görüntü kalitesi korunurken bellek kullanımı da önemli düzeyde azaltılamamış olur. PNG, GIF ve Bitmap kayıpsız sıkıştırma yöntemine örnek olarak gösterilebilir. Bir diğer veri sıkıştırma yöntemi ise kayıplı sıkıştırmadır. Bu yöntemde görüntü boyutu kayda değer ölçüde küçültülerek hafızada saklanabilir. Orijinal görüntüdeki verilerin bir kısmı silinerek sıkıştırma işlemi yapılan bu yöntemde bellek kullanımı kayıpsız sıkıştırmaya göre daha azdır. Fakat, sıkıştırılan görüntünün kalitesi orijinal görüntüye göre daha düşüktür. Kayıplı sıkıştırma algoritmalarına örnek olarak JPEG, MPEG ve H264/AVC verilebilir. Hem kayıplı hem de kayıpsız sıkıştırma yöntemlerinin avantajlarından yararlanabilmek için JPEG2000 sıkıştırma algoritması geliştirilmiştir. Bu yöntem, kesikli dalgacık dönüşümü teknolojisi ile tasarlanarak yüksek ölçeklenebilirlik sağlamaktadır. Böylelikle görüntüler istenen kalitede saklanabilmektedir. Günümüzde, uzaktan algılama, dijital fotoğrafçılık ve tıbbi görüntüleme gibi alanlarda bu sıkıştırma yöntemi ile elde edilen görüntüler kullanılmaktadır. Büyük miktarda bellek kullanımına sahip olan görüntüler sağladığı bellek ve görüntü kalitesi avantajlarından ötürü JPEG2000 ile sıkıştırılabilmektedir. JPEG2000 ile sıkıştırılmış görüntüleri işlemek için görüntü açma sürecini tamamen işletmek ve devamında yüksek hesaplama gücüne ihtiyaç duyan görüntü analiz işlemlerini yürütmek gerekmektedir. Görüntü analizi aşaması genel olarak makine öğrenmesi uygulamalarından oluşur. Bu uygulamalardan en bilineni ise derin evrişimsel sinir ağları olarak görülmektedir. Görüntü üzerindeki nesnelerin sınıflarını tahmin etmeye dayanan görüntü sınıflandırma uygulamaları, görüntü analizi alanında çalışılan en yaygın alt görev olarak dikkat çekmektedir. Görüntü sınıflandırma algoritmalarının başarısı öz nitelik vektörünün içeriği, sınıflandırıcının başarısı, görüntü kalitesi ve sınıflandırılması istenen sınıfların benzerliği gibi birçok etkenden etkilenmektedir. Görüntü sınıflandırma modellerinin başarısı sınıflandırma becerisi belirlenmektedir. Fakat, yüksek başarıma sahip birçok modelin hafızada kapladığı alanın büyüklüğü ve çalışma süresinin uzunluğu gerçek zamanlı sistemlere entegrasyonunu mümkün kılmamaktadır. Bu çalışma kapsamında, JPEG2000 ile sıkıştırılmış görüntüleri alt-bant özelliklerine göre sınıflandırarak bellek ve zamandan tasarruf ederken başarımı yüksek tutmaya odaklanılmıştır. Bu amaçla, ilk seviye alt-bantların katsayıları çıkartılmıştır. Bu alt-bantlar şu şekildedir: Düşük-Düşük (DD), Düşük-Yüksek (DY), Yüksek-Düşük (YD) ve Yüksek-Yüksek (YY). DD alt-bandı sadece düşük frekanslı detayları içerir ve yüksek frekans detaylarını içermez. Yapısı gereği orijinal görüntünün düşük boyutlu hali olarak görülmektedir. Yüksek frekanslı alt bantlar ise çeşitli yüksek frekans detayı içerirler. DY bandı dikey, YD bandı yatay ve YY bandı ise çapraz değişim detaylarını içeren bantlardır. Öne sürülen yöntem, çıkartılan ilk seviye alt imgeleri kullanarak içerdikleri farklı bilgileri tek bir alt-imge ile temsil etmeyi başarmıştır. Böylelikle düşük ve yüksek frekanslı görüntü detayları tek bir görüntü üzerinde özetlenebilmiştir. Oluşturulan hibrit görüntüler derin evrişimsel sinir ağları ile eğitilerek sınıflandırma görevi gerçekleştirilmiştir. Hibrit görüntülerin oluşturulması iki farklı alt-imge harmanlama yöntemiyle gerçekleştirilmiştir. Bunlardan ilki, hibrit ortalama alt-imge çıkartma yöntemidir. Bu yöntemde DY, YD ve YY bantlarının ortalaması alınır ve sıfır ortalamalı ara hibrit bant oluşturulur. Daha sonra bu alt-bant 128 ile ağırlıklandırılarak DD bandıyla toplanır. Böylelikle, yüksek frekanslı alt-bantların ağırlıkları eşit olarak değerlendirelerek DD bandına aktarılmış olunur. Yüksek frekans alt-ağırlıklarının değerlerine göre harmanlama yaptığımız ikinci yöntemde ise ortalama alma işlemi yerine maksimum alma işlemi kullanılmıştır. Yüksek frekanslı alt-bantların mutlak değerleri alınarak maksimum alma işlemi uygulanmış ve ara hibrit maksimum alt-imgesi oluşturulmuştur. Elde edilen ara imge DD bandı ile toplanarak alt-imge harmanlama işlemi sonlandırılmıştır. Öne sürülen iki yöntem de DD bandında eksik olan yüksek frekans bilgisini artırmıştır. Ortalama alma işlemi, DD bandına daha düşük dağılımlı yüksek frekanslı detay bilgisi enjekte ederken maksimum alma işlemi daha yüksek varyansa sahip yüksek frekans bilgisinin görüntü üzerinde temsil edilmesini mümkün kılmıştır. Deneysel değerlendirmeler uzaktan algılamalı manzara sınıflandırma veri seti olan NWPU-RESISC45 ve AID arşivleri üzerinden yapılmıştır. NWPU-RESISC45 veri setinde 256x256x3 boyutuna sahip ve 45 farklı sınıfa ait toplamda 31,500 manzara görüntüsü bulunmaktadır. AID veri setinde ise 30 farklı manzara sınıfına ait 600x600x3 boyutlarında toplam 10,000 görüntü bulunmaktadır. Bu veri setlerindeki görüntüler, JPEG2000 ile sıkıştırılmadığından ön işleme adımı olarak tüm görüntüler JPEG2000 ile sıkıştırılmıştır. Deneylerimizi gerçekleştirebilmek için kullandığımız derin öğrenme tabanlı model ise DenseNet-121'dir. Bu model içerdiği derin ağ bloğu, derinlik ve düşük parametre optimizasyonu ile sınıflandırıcı modelinin başarılı bir şekilde oluşturulmasını mümkün kılmıştır. Öne sürdüğümüz iki alt-imge harmanlama yöntemi de DD bandının sınıflandırma başarısını artırmıştır. Sonuçlara göre, NWPU-RESISC45 veri setinde, hibrit maksimum alt-bant yöntemi %~1.62, hibrit ortalama alt-bant yöntemi ise %~2.19 daha fazla sınıflandırma başarımı elde etmiştir. AID veri setinde ise hibrit maksimum alt-bant yöntemi %~0.49, hibrit ortalama alt-bant yöntemi ise %~0.93 daha yüksek başarım yüzdesine sahip olmuştur. Öte yandan, öne sürülen iki yöntem de DD bandına göre ek işlem süresi getirmiştir. Görüntü başına gelen ek süre NWPU-RESISC45 ver seti için, hibrit maksimum alt-bant yönteminde %~2.89 milisaniye, hibrit ortalama alt-bant yönteminde ise %~0.61 milisaniye olarak gözlemlenmiştir. AID veri setinde ise, hibrit maksimum alt-bant yöntemi için %~7.74 milisaniye, hibrit ortalama alt-bant yönteminde ise %~1.48 milisaniye ek işlem süresi tespit edilmiştir. Fakat, elde edilen bu süreler başarımda elde edilen artışa oranla göz ardı edilebilecek seviyede olarak değerlendirilmektedir. Çalışmamızda öne sürdüğümüz yöntemlerimiz DD alt bandındaki yüksek frekanslı bilgiyi artırmıştır. Böylelikle görüntünün daha fazla ayrıntı içermesine olanak sağlamıştır. Ayrıca, kısmi açma yönteminin sağladığı bellek ve zaman kazanımlarına ek olarak DD bandının sınıflandırma performansının iyileştirilmesi de öne sürülen alt-imge harmanlama yöntemiyle mümkün olduğu tespit edilmiştir.
Özet (Çeviri)
Image compression algorithms aim to reduce the memory storage of an image without dropping image quality. There are two main approaches in compression methodology: lossless and lossy compression. Lossless compression focuses on preserving input image quality. Only redundant parts of an input image are removed with this approach. Another compression approach is lossy compression; since this method removes significant parts of the image permanently, the file size of an input shrunk with reduced image quality. JPEG2000 decoder/encoder algorithm based on Discrete Wavelet Transform (DWT) is developed to provide lossless and lossy compression. It also provides high scalability and accessibility in the compression stage. So, the images can be stored with any quality level. Images that require large amounts of memory space can store with JPEG2000. Processing vast archives of images compressed with JPEG2000 requires the entire decompression process followed by a highly computationally demanding image analysis process. The image analysis phase typically consists of machine learning applications, such as Deep Convolutional Neural Network (DCNN) models. Image classification is among the most common image analysis task. This study proposes a sub-band image-based classification method for JPEG2000-compressed images. The proposed work reduces memory usage and decompression time by using intermediate coefficients of JPEG2000 compressed images for the classification task. To that end, sub-band image coefficients of the Low-Low (LL), Low-High (LH), High-Low (HL), and High-High (HH) sub-bands are utilized. These coefficients are stored in the compression stage and can be accessed via partial decompression of the stored data without requiring total decompression. Each sub-band has unique details of an input image. LL sub-band images only consist of low-frequency details of an original image. Other sub-band images (LH, HL, HH) are deprived of low-band information. LH sub-bands store vertical, HL store horizontal, and HH store diagonal high-frequency information. In the scope of this work, we combined first-level LL, LH, HL, and HH sub-bands to represent both features with a single hybrid sub-band and fed to a DCNN for the image classification task. We proposed different sub-band fusion methods. The hybrid average sub-band is extracted as a first method by summing the LL sub-band with the average of high-frequency sub-bands. Thus, equally weighted high details are projected to the LL sub-band. In the second method, which considers high-frequency weight values, the maximum acquisition is applied to the high bands instead of averaging. The output of this process is added to the LL sub-band to create a hybrid maximum sub-band. Consequently, each proposed hybrid sub-band composition technique increases the high-frequency detail of the LL sub-band. We used two Remote Sensing Scene Classification (RSSC) datasets for the experiments; NWPU-RESISC45 and AID. NWPU-RESISC45 composes 31,500 scene images of 256x256x3 from 45 scene classes, and AID has 10,000 scene images with 600x600x3 size and 30 different classes. Since the images in these datasets are not compressed with JPEG2000, all images are compressed with JPEG2000 as a pre-processing step. We utilized DenseNet-121 to classify the data set. Our hybrid sub-band techniques improved the classification accuracy of the LL sub-band by %~1.62 and %~2.19, with only %~2.89 and %~0.61 milliseconds of additional test for the experiments in the NWPU-RESISC45 dataset. In experiments on the AID dataset, the proposed methods have more accurate classification performance than the LL sub-band by %~0.49 and %~0.93, with %~7.74 and %~1.48 milliseconds of extra processing time per image. Results show that a DCNN model can perform the partial decompression method with higher accuracy using both suggested sub-band composition techniques. Our work indicates that both proposed hybrid sub-band fusion approaches boost the high-frequency details in the LL sub-bands, allowing more details to be included in the image and improving classification performance while taking advantage of the partial decompression method.
Benzer Tezler
- Distilling knowledge of neural networks for image analysis, model compression, data protection and minimization
Görüntü analizi, model sıkıştırma, veri koruma ve minimizasyonu için yapay sinir ağlarının bilgisinin damıtılması
REYHAN KEVSER KESER
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Efficient deep learning approaches for signal and image analysis applications
Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları
ONUR CAN KOYUN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Compressed domain video understanding methods for traffic surveillance applications
Trafik izleme uygulamaları için sıkıştırılmış alanda video anlamlandırma yöntemleri
MUHAMMET SEBUL BERATOĞLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Comparative analysis of deep learning components on compressed domain action recogniton framework
Derin öğrenme bileşenlerinin sıkıştırılmış domen aktivite tanıma sistemi üzerinde karşılaştırmalı analizi
HÜSEYİN ONUR YAĞAR
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Sparse representation frameworks for inference problems in visual sensor networks
Görsel algılayıcı ağlarındaki istatiksel çıkarım problemleri için seyrek temsil yöntemleri
SERHAN COŞAR
Doktora
İngilizce
2013
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜJDAT ÇETİN