Geri Dön

Interpreting convolutional blocks as feature embedding by template matching for image recognition

Görüntü tanıma için evrişimsel blokların şablon eşleme yöntemiyle özellik gömme olarak yorumlanması

  1. Tez No: 823915
  2. Yazar: ADA GÖRGÜN
  3. Danışmanlar: PROF. DR. ABDULLAH AYDIN ALATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 131

Özet

Pek çok sinir ağının (CNN) başarısının anahtarı olarak bilinen evrişimsel bloklar, yerel özellik çıkarıcı olarak hizmet ederler. Yine de bu tarz yapıların, düşük seviyeden çıkarılan özellikler için yerelleştirilmiş ek açıklamaları olmadığı için, ara katmanların açık denetimi görüntü tanımada büyük bir zorluk haline gelmiştir. Bu tezde, bu sorunun ele alınması için şablon eşleştirme paradigmasına geri dönülmüştür. İlk olarak, yerel semantik özellik yerleştirmeyi daha açık hale getirmek için evrişimsel bloklar, en iyi eşleşen filtreye göre özellik seçimi olarak yeniden formüle edilir. Bu şekilde, grup normalizasyon ve doğrultulmuş lineer birim işlemlerinin birleşiminin bir arg-max optimizasyon problemi olarak yorumlanmasıyla, tipik ResNet bloklarının şablon eşleştirmeyle yerel özellik gömme işlemi gerçekleştirdiği gösterilmiştir. Bununla birlikte, CNN'lerin ara özelliklerini şekillendirmek için, sınıf etiketi bilgilerini kullanarak ara blokların lokal özellik çıktılarını anlamlandıracak bir ara blok yapısı tasarlanmıştır. Bu kavramdan elde edilen getiriler, sınırlı kapasiteli bir modelin (öğrenci) öğrenmesini desteklemek amacıyla güçlü bir modelin (öğretmen) tecrübesinin kullanımını motive eden bilgi damıtması tekniği ile genişletilmiştir. Önceki çıkarımlara takiben, öğretmen modelin bilgisini özellik dönüşümünde kullanabilmek adına, tez dahilinde, öğrenci modele 3 farklı yetenek katacak yeni bir öğrenilebilir ara katman sunulmuştur: i) öğretmen modelin bilgisinden nasıl yararlanılacağını öğrenmek, ii) rahatsız edici ve performans düşürücü bilgileri atmayı sağlamak ve iii) aktarılan bilgiyi sinir ağının daha derinine iletmeyi sağlamak. Bunların yanına ek olarak, ara katmanlarda şablon öğrenmeyi kolaylaştırmak için, öğretmen modelin kararlarına dayalı yeni bir denetim biçimi önerilmiştir. Detaylı deneylerle birlikte, önerilen yöntemlerin etkinliği, görüntü tanıma literatüründe sıklıkla kullanılan pek çok son teknoloji metotları geride bırakarak gösterilmiştir.

Özet (Çeviri)

Known as the key to the success of many neural networks (CNNs), convolutional blocks serve as local feature extractors. Yet, explicit supervision of intermediate layers becomes a major challenge in image recognition since there are no localized annotations for low-level features in practice. In this thesis, this challenge is addressed by referring back to the template matching paradigm. Firstly, to make local semantic feature embedding rather explicit, convolutional blocks are reformulated as feature selection according to the best-matching kernel. Consequently, typical ResNet blocks are shown to perform local feature embedding via template matching once batch normalization followed by a rectified linear unit is interpreted as an arg-max optimizer. Following this perspective, a residual block is tailored to explicitly force semantically meaningful local feature embedding by using class-label information for shaping the intermediate features of CNNs. This concept is expanded through knowledge distillation (KD), which is regularizing the learning of a limited capacity model (student) by pushing its responses to match a powerful model (teacher). Similarly, to explicitly embed the teacher's knowledge in feature transform, a learnable KD layer is proposed for the student to gain three distinct abilities: i) learning how to leverage the teacher's knowledge, ii) enabling to discard nuisance information, and iii) feeding forward the transferred knowledge deeper. Additionally, to facilitate template learning in the intermediate layers, a novel form of supervision based on the teacher's decisions is proposed. Through rigorous experimentation, the effectiveness of the proposed methods is demonstrated, surpassing several state-of-the-art methods on image recognition.

Benzer Tezler

  1. Beyond 2D and more: Interpreting remote sensing image classification methods via explainable artificial intelligence

    2 boyuttan daha fazlası: Açıklanabilir yapay zeka aracılığıyla uzaktan algılama görüntü sınıflandırma yöntemlerinin yorumlanması

    DEREN EGE TURAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERCHAN APTOULA

  2. Konvolüsyonel sinir ağları derin öğrenme tekniği ile yüz görüntülerinin sınıflandırılması

    Classification of facial images using convolutional neural network deep learning technique

    MELEK TURSUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMilli Savunma Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER ÇETİN

  3. Improving prediction of chest infections using machine learning algorithms from X-ray images

    Başlık çevirisi yok

    KARAM SAMEER ABDULATEEF AL ZUBAIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OĞUZ ATA

  4. Hardware acceleration for Swin transformers at the edge

    Uçta Swin tabanlı dönüştürücüler için donanım hızlandırıcılar

    YUNUS ESERGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. UĞUR GÜDÜKBAY

    PROF. DR. ÖZCAN ÖZTÜRK

  5. Panoramik radyografi kullanılarak iki farklı derin öğrenme metodunun dişlerin sınıflandırılması üzerindeki performanslarının karşılaştırılmalı olarak incelenmesi

    Comparative investigation of the performances of two different deep learning methods on classification of teeth using panoramic radiography

    SERKAN YILMAZ

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2021

    Diş HekimliğiErciyes Üniversitesi

    Ağız, Diş ve Çene Radyolojisi Ana Bilim Dalı

    DOÇ. DR. EMİN MURAT CANGER