Multi-scale recursive context aggregation network for semantic segmentation
Anlamsal bölümleme için çok ölçekli özyinelemeli bağlam birleştirme ağı
- Tez No: 874223
- Danışmanlar: PROF. DR. MEHMET KESKİNÖZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 73
Özet
Gerçek hayatta nesneler ve doğal oluşumlar farklı boyut ve çeşitlilikte şekil, örüntü ve ayrıntılara sahiptir. Onları karakterize eden bu nitelikler sayesinde varlıklar tanınır ve ayırt edilir. Problem türü ne olursa olsun, derin öğrenme tabanlı görüntü tanıma modelleri, söz konusu karakteristik özellikler ile ait oldukları nesneler arasında ilişki kurmaya çalışır. Böylelikle model, örneğin, resmin belirli bir bölgesinde her hangi bir nesneye özgü bir örüntü tespit ettiğinde, bu durum o bölgedeki piksellerin, söz konusu nesne grubuna ait bir varlığın parçası olduğuna dair güçlü bir kanıt oluşturur. Görüntü tanıma alanında“bağlam”, resmin belirli bir bölgesinde ne olduğunu tanımlar. Diğer bir deyişle bağlam, NxM büyüklüğünde bir resim penceresindeki içeriği ifade eder. Görüntü tanıma ve nesne algılama modellerinin önemli bir unsuru olan bağlam, literatürdeki adıyla“bağlam birleştirme”veya“içerik katıştırma”olgusunun yapı taşıdır. Bağlam birleştirme, farklı büyüklük ve çeşitteki bağlamların bir araya getirilerek daha büyük bağlamların oluşturulması işlemidir. Bir bakıma, dar kapsamlı fakat büyük miktardaki bilgiden yeni bilgilerin sentezlenmesi olarak düşünülebilir. Örnek vermek gerekirse, yüz tanıma sistemlerinde kullanılan CNN modellerinde, yüz bölgesinin bulunup tanınması için öncelikle kişinin göz, ağız, burun gibi detaylarının bulunması gerekecektir. Benzer şekilde, daha alt seviyedeki elementler de kendi altındaki niteliklerle tespit edilir. Düşük çözünürlüklü görüntülerin girdi olarak alındığı sığ ağ modellerinde bağlam birleştirme nispeten kolaydır ve bloklar arasındaki kestirme bağlantıları sayesinde katmanlar arasında dinamik olarak gerçekleşir. Ancak çözünürlük arttıkça, daha geniş alanları gören zengin bağlamları yakalayabilmek için blok ve katman sayısı da artırılmalıdır. Fakat bu, resimlerdeki büyük nesnelerin algılanması için uygun şekilde birleştirilmesi gereken küçük ve büyük bağlamlar arasındaki açıklığın da artması demektir. İleri sürülen pek çok mimaride, başlangıç noktası olarak tek çözünürlüklü orijinal girdiler kullanılmaktadır. Her ne kadar bu modeller küçük ölçekli nesneleri kolaylıkla tespit edebilse de, görüntülerdeki büyük ölçekli nesnelere ait kaba şekilleri ve örüntüleri orijinal hâliyle işleyemez. Bunun sebebi, evrişim filtreleri ve havuzlama işlemlerinin genellikle çok küçük boyutlarda (ör. 2x2, 3x3) olmasıdır. Bu nitelikler ancak çıktı aktivasyon çözünürlüklerinin daha düşük olduğu (ör. 16x16, 32x32) ve her bir hücrenin (piksel) girdi resmindeki geniş alanları gördüğü derin katmanlarda işlenebilir. Başka bir deyişle, CNN modelinde girdiden çıktıya doğru ilerlendikçe ara katmanların, girdi resmi üzerindeki“görüş açısı”veya“alıcı bölge büyüklüğü”artar. Dikkatli bakıldığında, girdi resimlerde yer alan orijinal kaba örüntü ve detaylar, tekrarlı ve zincirli yapıdaki evrişim ve doğrusal olmayan aktivasyon işlemleri sonucunda büyük oranda değişikliğe uğrar. Pek çok ağ mimarisinde kullanılan atlama/kestirme bağlantıları bu etkiyi kısmen azaltsa da tüm zincirin uzunluğu (genellikle 30-100 katman) göz önüne alındığında tek başına yeterli gelmeyecektir. Bu aşamada sorunun asıl çözümünün, modele tek çözünürlüklü girdi yerine çok çözünürlüklü resim girdileri sağlamak ve modelin orijinal resimdeki kaba şekilleri herhangi bir değişikliğe uğramadan doğrudan düşürülmüş çözünürlükte işlemesine imkan tanımak olduğunu düşünüyoruz. Bu tez kapsamında, anlamsal segmentasyon problemlerinde kullanılabilecek olan ve girdi olarak tek resim yerine bir resim piramidi alıp“kafes”yapısındaki kodlayıcı-kod çözücü mimarisiyle zengin içerikli nitelikler çıkarabilen yeni“Çok Çözünürlüklü, Çok Ölçekli Özyinelemeli Bağlam Birleştirme Ağı”(RCA-Seg) modelimizi ileri sürmekteyiz. RCA-Seg 3 ana modülden oluşmaktadır: 1) Ölçek Bazlı Ayrık Öznitelik Çıkarıcısı, 2) Çok Ölçekli Kodlayıcı, 3) Çok Ölçekli Kod Çözücü. İlk modülde, resim piramidi elde etmek için orijinal girdi resminden 2x2 ortalama havuzlama işlemiyle art arda düşük çözünürülüklü resim versiyonları elde edilir. En büyük ve en küçük resim boyutları, resim piramidindeki toplam resim sayısını kontrol etmektedir (ör. max: 256, min: 16). Sonrasında, resim piramidinin her ölçeğinden, öğrenilebilir parametreleri birbirinden bağımsız olan 3x3 evrişim filtreleri ile temel düzeyde öznitelikler çıkarılır. Buradaki esas amaç, herhangi bir dönüşümden önce orijinal kaba nitelikleri yakalamak ve diğer niteliklerle beraber işlenmesi için kod çözücü modülüne girdi olarak vermektir. Uygulanan alt-örnekleme, 2-boyutlu girdi sinyalindeki yüksek frekanslı sinyalleri yok ederken düşük frekanslı sinyalleri korumaktadır. Bu da, kaba ve büyük şekillerin tutulması anlamına gelir. Öte yandan, tek çözünürlüklü, tek girdili modellerde bu etkiyi sağlamak kolay değildir. Bir sonraki modül olan Çok Ölçekli Kodlayıcı, ölçek bazında elde edilen öznitelikleri farklı büyüklükte bağlamlar oluşturmak için birleştirir. Bu modül, içinde çok sayıda bağlantı noktaları barındıran bir kafes yapısından oluşur. Kodlayıcı modülünün temelindeki her bir öznitelik bloğu özyinelemeli olarak 2 girdiden oluşturulmaktadır: İlgili özniteliğin 1) sol-üstünde ve 2) üstünde bulunan öznitelikler. Üçüncü modül, kodlayıcının aksi yönünde çalışan ve yine kafes yapısı içeren çok ölçekli simetrik bir kod çözücü modülüdür. Buradaki amaç, kodlayıcıda yakalanan ve nesnelere ait olan anlamsal bilgilerin resimde hangi bölgelere karşılık geldiğini belirlemek ve bu sayede nesnelerin ve örüntülerin sınırlarını keskinleştirmektir. Kod çözücüdeki her bir öznitelik özyinelemeli olarak 3 girdiden oluşturulmaktadır: İlgili özniteliğin 1) sol-altındaki 2) altındaki ve 3) kodlayıcı modülündeki simetrik karşılığı olan öznitelik. Kod çözme adımından sonra, en büyük boyuta sahip üst-örneklenmiş kod çözücü çıktısına 1x1 evrişim filtresi ve Softmax aktivasyon fonksiyonu uygulanarak model maske çıktısı (piksel bazlı sınıf skorları) elde edilir. RCA-Seg mimarisinin biçimi, kullanıcı tarafından girilen 3 hiperparametre ile belirlenmektedir: 1) en büyük resim boyutu 2) en küçük resim boyutu 3) en küçük öznitelik boyutu. En büyük ve en küçük resim boyutları (yukarıda da ifade edildiği gibi) resim piramidindeki ölçeklenmiş resimlerin sayısını belirlerken en küçük öznitelik boyutu ise kodlayıcı ve kod çözücüde çıkarılabilecek en düşük çözünürlüklü katmanların boyutunu yansıtmaktadır. En büyük ve en küçük resim boyutunun aynı olması durumunda, modelimiz U-Net modeline çok benzer bir yapıya indirgenmektedir. Fakat ileri sürülen yaklaşımın etkisinin hissedilebilmesi için en küçük resim boyutunun alacağı değer, en büyük resim boyutu ile en küçük öznitelik boyutunun geometrik ortalamasına karşılık gelmelidir. Klasik çok ölçekli ağ mimarilerine kıyasla RCA-Seg'in birden fazla avantajı bulunmaktadır. Bunların ilki, çok girdili yapı sayesinde bilgi kaynağı çok yollu hâle dönüşmekte ve kafes şeklinde işlenebilmektedir. İçerisindeki alternatif yolların ve bağlantı noktalarının sayısı düşünüldüğünde kafes yapısı, daha manuel ve heterojen bir bağlam birleştirme sunmaktadır. İkincisi, çoklu girdi sayesinde farklı büyüklükteki nesne ve örüntülerin yakalanması kolaylaşmaktadır. Küçük detaylar ağın üst seviyelerinde yakalanırken, büyük örüntüler alt seviyelerde tespit edilebilmektedir. Bir diğer avantaj ise, girdi ve çıktı arasındaki uzaklığın (ara katmanların oluşturduğu zincir uzunluğu) azalmasıyla birlikte geri yayılım adımında gradyan akışlarının“kaybolan ve patlayan gradyan”problemlerinden daha az etkilenmesidir. Bu da model eğitimlerinin daha hızlı ve dengeli olmasını sağlar. İleri sürülen metodun başarısını test etmek için Oxford IIIT Pet veri kümesi kullanılmıştır. Oxford IIIT Pet, 37 kedi ve köpek ırkını içeren ve 3680'i eğitim-doğrulama, 3669'i test kümesi olmak üzere toplamda 7349 resim ve segmentasyon maskesinden oluşmaktadır. Eğitim-doğrulama kümesinin %10'u doğrulama kümesi, geri kalanı eğitim kümesi olacak şekilde rastgele bölünmüştür ve bölme işlemi her deney için sabitlenmiştir (doğrulama ve eğitim resimleri aynıdır). Segmentasyon maskeleri, ön plan (nesne), arka plan ve sınır bölgelerini ayıran üçlü haritalar şeklindedir. RCA-Seg'e çok yakın olması sebebiyle karşılaştırmalı deneyler için temel referans olarak U-Net seçilmiştir. U-Net modelinde, literatüre uygun şekilde, bazı değişikliklere gidilmiş, kırpma ve sönümleme işlemleri kenar doldurma ve yığın normalizasyonu ile değiştirilmiştir. Başlangıç ve bitiş bloklarındaki kanal sayıları orijinaldeki gibi 64 olarak sabitlenmiştir. Orta katmanların kanal sayısı içinse farklı model kapasitelerini test etmek amacıyla 1024'ün yanı sıra 512, 256 ve 128 değerleri de denenmiştir. RCA-Seg modelindeki kanal sayıları U-Net'tekine paralel şekilde seçilmiştir (128, 256, 512, 1024). Ara katmanların kanal sayıları U-Net'teki gibi üstel olarak artıp azalmaktadır. Tüm deneylerde hem RCA-Seg hem de U-Net için en büyük resim boyutu ve en küçük öznitelik boyutu, sırasıyla, 256 ve 16 olarak sabitlenmiştir. RCA-Seg deneylerinde en küçük resim boyutu 64 olarak belirlenmiştir, böylelikle resim piramidinde 256, 128 ve 64'lük resimler yer almıştır. Alınan sonuçlar, RCA-Seg modelinin U-Net'e göre test veri kümesinde ortalama %2-3'lük mIoU avantajı sağladığını, bununla birlikte her iki modelde yapılan orta blok kanal sayısındaki değişimlerin tahmin başarısında ciddi bir artışa sebep olmadığını ortaya koymuştur. Çalışma kapsamında bölümleme problemleri için sadece çok girdi ve ölçekli kodlayıcı-kod çözücünün etkisi araştırılmış ve U-Net modelindeki geleneksel kodlayıcı-kod çözücüyle karşılaştırılması yapılmıştır. Her iki mimari de doğası gereği kodlayıcı tarafında, önceden eğitilmiş herhangi bir omurga modeli kullanmamaktadır. Bu nedenle, öğrenme aktarımı söz konusu değildir. Aynı şekilde, U-Net'le adil bir karşılaştırma yapılabilmesi için mimaride“derinlemesine ayrılabilir evrişim”filtrelerini içeren modern bloklar kullanılmamıştır. Gelecekte, hem mimari hem de eğitim tekniklerinde yapılacak iyileştirmeler ile elde edilen başarıların optimizasyonu hedeflenmektedir.
Özet (Çeviri)
In real life, objects and natural formations have different characteristics of shapes, patterns and details which enable human vision to recognize and distinguish one from another. Deep learning based image recognition models try to find associations between those characteristic features and the objects they belong to. This way, for example, when a model detects a certain pattern across an image which is unique to a particular object, it could be a strong evidence for the nearby pixels to be the part of an object of that kind. In image recognition, the term“context”is used to define the findings in a region of interest and it is a crucial element of“context aggregation”phenomenon where smaller contexts at varying sizes are integrated to obtain larger contexts. In shallow networks where low-resolution images are taken as inputs, context aggregation is relatively easy and dynamically performed between layers through short-cut connections within blocks. However, as the resolution gets larger, number of blocks and layers need to be increased in order to capture the rich contexts in broader areas. This leads to a significant gap between smaller and larger contexts which should be aggregated properly for detecting the big objects throughout the image. Most of the state-of-the-art methods use single-resolution input in their architectures as a starting point. Even if small-scale objects are detected with ease, those models cannot directly process coarse patterns of large-scale objects in the original images due to tiny convolution filters (e.g., 3x3) and pooling operations (e.g., 2x2). These features can only be processed in deeper layers where resolutions of output activations are lower (e.g., 32x32, 16x16) and each cell in these activations sees wider area of the input image. It's noticeable that the original coarse patterns in input images are subject to substantial changes as a result of chained convolutions and non-linearities along the way, although there might be skip connections within the network that partially diminish this problem. We are of mind that the actual cure for the problem is to let the model take in multi-resolution images instead of a single-resolution image and give it a way to process coarse patterns in the downsampled inputs before any modification. In this thesis, we propose a novel multi-resolution multi-scale recursive context aggregation network (RCA-Seg) for semantic segmentation tasks which takes image pyramid as input and extracts rich heterogeneous multi-scale features from those inputs with the help of grid-like encoder and decoder modules. RCA-Seg consists of 3 main modules: 1) Per-scale Feature Extractor 2) Multi-scale Encoder 3) Multi-scale Decoder. In the first module, input image is downsampled multiple times using 2x2 average pooling to get an image pyramid and then basic-level features are extracted from each scale of that pyramid using 2 consecutive 3x3 convolution layers with independent learnable parameters. This is to ensure that the original coarse patterns are captured before any modification. The aim of the next module, multi-scale multi-resolution encoder, is to jointly fuse those features generated from the previous module to accomplish context aggregation. In the third module, multi-scale decoding process occurs using the corresponding encoder outputs in the mirrored positions and previously-decoded features from the levels below in order to refine boundaries of object masks. At the last step, a 1x1 convolution followed by Softmax activation is applied to the output of the decoder module to obtain final segmentation masks with per-pixel class scores. The shape of the overall architecture is determined by 3 hyperparameters: 1) maximum image size 2) minimum image size 3) minimum feature size. The first two define maximum and minimum image sizes in the image pyramid while the last one denotes the size of the smallest outputs between the encoder and the decoder. The design of RCA-Seg enables features at different scales and positions to have multiple path options in arriving the final output layer. Compared to single-input architectures having multi-scale encoder-decoders, it not only makes feature fusion powerful, but also shortens the paths of gradient flows in backpropagation, allowing faster and more stable trainings. We have used Oxford IIIT Pet dataset to train and test our model and simple U-Net architecture as a baseline in benchmarks. The main hyperparameters mentioned above enable us to construct both complex grid-like models and simple models that are nearly identical to U-Net, which offers a fair comparison between our method and U-Net. We have also tested the channel counts involved in encoder-decoder framework in terms of performance and shown that the abundant number of channels which reaches up to 1024 in the middle layers is unnecessarily high in our case. In the experiments, we have not taken advantage of pre-trained weights or data augmentation techniques so as to explore the impact of the novelties on their own. Ultimately, RCA-Seg gets an outperformance of 2-3% mIoU over plain U-Net on the test set. To sum up, we introduce RCA-Seg, a new semantic segmentation model, which takes in and processes multi-resolution inputs to efficiently extract rich multi-scale features in a recursive and heterogeneous fashion. The overall architecture is designed as close to U-Net as possible. In the future, our plan is to use state-of-the-art elements such as inverted residual blocks with linear bottlenecks to boost the accuracy.
Benzer Tezler
- Assessing the impact of super-resolution on enhancing the spatial quality of historical aerial photographs
Tarihi hava fotoğraflarının mekansal kalitesini artırmada süper-çözünürlüğün etkisinin irdelenmesi
ABDULLAH HARUN İNCEKARA
Doktora
İngilizce
2024
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
- Jeoistatistiksel, statik ve kararsız basınç testi verilerine koşullandırılmış heterojen geçirgenlik ve gözeneklilik sahalarının türetilmesi
Generation of porosity and permeability fields conditioned to geostatistical, and pressure transient data
ADİL GÜRKAN CEYHAN
Yüksek Lisans
Türkçe
1997
Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik ÜniversitesiPetrol Mühendisliği Ana Bilim Dalı
PROF. DR. ABDURRAHMAN SATMAN
- Renkli histogram kullanarak içerik tabanlı görüntü erişimi
Content based image retrieval by using color histogram
MAHMUT KILIÇASLAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. RECEP DEMİRCİ
- Yapay sinir ağları ile trafik yoğunluğu tahmini
Prediction of traffic congestion by artificial neural networks
MURAT NAS
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. NESLİHAN SERAP ŞENGÖR
- Multispektral İHA verilerinin obje tabanlı sınıflandırılmasında ndym tabanlı performans artırım yaklaşımları
Ndsm-based potential enhancement approaches in object-based classification of multispectral uav data
İLYAS AYDIN
Yüksek Lisans
Türkçe
2024
Jeodezi ve FotogrametriGebze Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
PROF. DR. UMUT GÜNEŞ SEFERCİK