Geri Dön

Object detection with minimal supervision

Asgari denetim ile nesne tespiti

  1. Tez No: 781282
  2. Yazar: BERKAN DEMİREL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ, DOÇ. DR. NAZLI İKİZLER CİNBİŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 180

Özet

Nesne tespiti, hem nesne sınıflarının hem de konumlarının doğru bir şekilde tespit edilmesini gerektirdiğinden, bilgisayarlı görü alanındaki en zorlu problemlerden biri olarak kabul edilir. Literatürde önerilen nesne tespit yaklaşımları, genellikle tüm sınıflar için büyük miktarda etiketli verinin olduğu tam denetimli yöntemlerle eğitilmektedir. Veri etiketleme hem zaman hem de işçilik açısından maliyetli olduğundan literatürde bu maliyetleri azaltmak için zayıf denetimli veya karma-denetimli gibi alternatif nesne tespit yöntemleri de bulunmaktadır. Bu tezde odak noktamız, nesne tespit problemini asgari denetim ile ele almaktır. Bu bağlamda, önce bazı hedef nesne sınıfları için hiçbir görsel eğitim verisinin bulunmadığı sıfır-atım nesne tespiti (SAT) adlı zor bir senaryo tanımlıyoruz. Ardından, az-atım nesne tespit (AANT) problemine odaklanıyoruz ve meta-uyarlama ilkesini öneriyoruz. SAT probleminde, tek aşamalı nesne tespit yöntemlerinin sınıflandırma bölümünde görsel sınıf katışımlarını ve semantik katışımların dışbükey kombinasyonlarını kullanan bir yaklaşım öneriyoruz. Önerdiğimiz yöntemin ardından, daha bilgilendirici kelime katışımları, arka plan modelleme ve ZSD yöntemleri için potansiyel uygulamalara odaklanıyoruz. Bu vektörler, sıfır-atım öğrenme (SAÖ) için temel bir bilgi kaynağı olduğundan, önce derin modellerde katışım vektörlerinin kullanımını analiz ediyoruz ve semantik olarak anlamlı kelime vektörlerini görsel olarak anlamlı hale dönüştüren yeni bir yaklaşım öneriyoruz. Önerilen görsel olarak anlamlı kelime katışım vektörlerini kullanmanın, sıfır-atım sınıflandırma (SAS) probleminde en iyi sonuçlar elde ettiğini gösteriyoruz. Ardından, hazırladığımız özgün metinsel ilgi mekanizmasını kullanarak SAT problemindeki arka plan modellemesini ele almak için literatürdeki ilk yöntemi öneriyoruz. Son olarak, SAT uygulamaları kapsamında, girdi görüntülerinin görünmeyen nesne örneklerinden oluşabileceği sıfır-atım görüntü altyazılama (SAGA) adını verdiğimiz yeni bir problem sunuyoruz. Önerilen SAGA yöntemi, şablon tabanlı cümle oluşturucuları kullanır ve boş görsel şablon alanlarını SAT yöntemlerinden elde edilen nesne önerileriyle doldurur. Bu kapsamda, SAGA problemi için üretilen altyazı kalitesini daha doğru bir şekilde değerlendirebilmek amacıyla V-METEOR adlı yeni bir değerlendirme metriği de öneriyoruz. Bu tezde, ayrıca AANT problemine odaklanıyoruz ve az-atım ayarlarında yorumlanabilir kayıp fonksiyonlarını/veri artırma büyüklükleri modellememizi sağlayan meta-uyarlama ilkesini öneriyoruz. Meta-uyarlama, epizodik öğrenmeyi kullanarak bir ara öğrenme adımı olarak AANT sonuçlarını iyileştirecek tümevarımsal önyargıların öğrenilmesine olanak sağlar. Önerilen RL tabanlı meta-uyarlama yaklaşımıyla, kayıp fonksiyon parametrelerini ve büyütme büyüklüklerini modelliyoruz ve AANT probleminde en iyi sonuçları elde ediyoruz.

Özet (Çeviri)

Object detection is considered one of the most challenging problems in computer vision since it requires correctly predicting both the object classes and their locations. In the literature, object detection approaches are usually trained in a fully-supervised manner, with a large amount of annotated data for all classes. Since data annotation is costly in terms of both time and labor, there are also alternative object detection methods, such as weakly supervised or mixed supervised learning to reduce these costs in the literature. In this thesis, our focus is handling object detection problem with minimum supervision. In this context, we first define a difficult scenario namely zero-shot object detection (ZSD), where no visual training data is available for some of the target object classes. Secondly, we focus on the few-shot object detection (FSOD) problem and propose the novel meta-tuning principle. In the ZSD problem, we propose an approach that uses visual class embeddings and convex combinations of semantic embeddings in the classification part of single-stage object detectors. Following the proposed method, we focus on using more informative word embeddings, background modeling, and potential applications for ZSD methods. We first analyze the use of embedding vectors in deep models since these vectors are an essential knowledge source for zero-shot learning (ZSL), and we propose a novel approach that transforms semantically meaningful word vectors into visually meaningful ones. We show that using the proposed visually meaningful word embedding vectors obtain state-of-the-art results in the zero-shot classification (ZSC) problem. Then, we propose the first attempt to handle the background modeling in ZSD using a novel textual attention mechanism. Finally, we introduce a new problem within the scope of ZSD applications, which we call zero-shot image captioning (ZSIC), where the input images may consist of unseen object instances. The proposed ZSIC method use template-based sentence generators and fills the empty visual template slots with object proposals obtained from ZSD methods. In this context, we also propose a new evaluation metric called V-METEOR to evaluate the caption qualities more accurately for the ZSIC problem. In this thesis, we also focus on the FSOD problem and propose the meta-tuning principle, which allows us to model interpretable loss functions/data augmentation magnitudes in few-shot settings. Meta-tuning allows learning inductive biases that boost FSOD as an intermediate learning step using episodic learning. With the proposed RL-based meta-tuning approach, we model the loss function parameters and augmentation magnitudes, and obtain state-of-the-art results in the FSOD problem.

Benzer Tezler

  1. Object detection using optical and LiDAR data fusion with graph-cuts

    Çizge kesit ile optik ve LiDAR veri füzyonu kullanarak nesne tespiti

    ONUR TAŞAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM AKSOY

  2. Radyografik görüntülerin modellenmesi ve buna ilişkin yazılım paketinin geliştirilmesi

    To model radiographic images and develop a software package according to this modelling techniques

    SERDAR BALTACI

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    PROF.DR. AYDIN ÖZTÜRK

  3. Hapishanelerde ifade özgürlüğü bağlamında kitap yasakları

    Book bans in the context of freedom of expression in prisons

    EVİN NAZ ERCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    DOÇ. DR. ÖZEN ÜLGEN ADADAĞ

  4. Rapid application development classes for database applications

    Veritabanı uygulamaları için hızlı uygulama geliştirme nesne sınıfları

    ATAKAN ERDEM

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET COŞAR

  5. Moving object detection in industrial line application

    Endüstriyel hatlarda hareketli nesne algılama uygulamalası

    MUHAMAD AZHAR ABDILATEF

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. REZA HASSANPOUR

    YRD. DOÇ. DR. RAFİD AMORI