Object detection with minimal supervision

Asgari denetim ile nesne tespiti

PDF İndir

Tez No: 781282
Yazar: BERKAN DEMİREL
Danışmanlar: DR. ÖĞR. ÜYESİ RAMAZAN GÖKBERK CİNBİŞ, DOÇ. DR. NAZLI İKİZLER CİNBİŞ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 180

Özet

Nesne tespiti, hem nesne sınıflarının hem de konumlarının doğru bir şekilde tespit edilmesini gerektirdiğinden, bilgisayarlı görü alanındaki en zorlu problemlerden biri olarak kabul edilir. Literatürde önerilen nesne tespit yaklaşımları, genellikle tüm sınıflar için büyük miktarda etiketli verinin olduğu tam denetimli yöntemlerle eğitilmektedir. Veri etiketleme hem zaman hem de işçilik açısından maliyetli olduğundan literatürde bu maliyetleri azaltmak için zayıf denetimli veya karma-denetimli gibi alternatif nesne tespit yöntemleri de bulunmaktadır. Bu tezde odak noktamız, nesne tespit problemini asgari denetim ile ele almaktır. Bu bağlamda, önce bazı hedef nesne sınıfları için hiçbir görsel eğitim verisinin bulunmadığı sıfır-atım nesne tespiti (SAT) adlı zor bir senaryo tanımlıyoruz. Ardından, az-atım nesne tespit (AANT) problemine odaklanıyoruz ve meta-uyarlama ilkesini öneriyoruz. SAT probleminde, tek aşamalı nesne tespit yöntemlerinin sınıflandırma bölümünde görsel sınıf katışımlarını ve semantik katışımların dışbükey kombinasyonlarını kullanan bir yaklaşım öneriyoruz. Önerdiğimiz yöntemin ardından, daha bilgilendirici kelime katışımları, arka plan modelleme ve ZSD yöntemleri için potansiyel uygulamalara odaklanıyoruz. Bu vektörler, sıfır-atım öğrenme (SAÖ) için temel bir bilgi kaynağı olduğundan, önce derin modellerde katışım vektörlerinin kullanımını analiz ediyoruz ve semantik olarak anlamlı kelime vektörlerini görsel olarak anlamlı hale dönüştüren yeni bir yaklaşım öneriyoruz. Önerilen görsel olarak anlamlı kelime katışım vektörlerini kullanmanın, sıfır-atım sınıflandırma (SAS) probleminde en iyi sonuçlar elde ettiğini gösteriyoruz. Ardından, hazırladığımız özgün metinsel ilgi mekanizmasını kullanarak SAT problemindeki arka plan modellemesini ele almak için literatürdeki ilk yöntemi öneriyoruz. Son olarak, SAT uygulamaları kapsamında, girdi görüntülerinin görünmeyen nesne örneklerinden oluşabileceği sıfır-atım görüntü altyazılama (SAGA) adını verdiğimiz yeni bir problem sunuyoruz. Önerilen SAGA yöntemi, şablon tabanlı cümle oluşturucuları kullanır ve boş görsel şablon alanlarını SAT yöntemlerinden elde edilen nesne önerileriyle doldurur. Bu kapsamda, SAGA problemi için üretilen altyazı kalitesini daha doğru bir şekilde değerlendirebilmek amacıyla V-METEOR adlı yeni bir değerlendirme metriği de öneriyoruz. Bu tezde, ayrıca AANT problemine odaklanıyoruz ve az-atım ayarlarında yorumlanabilir kayıp fonksiyonlarını/veri artırma büyüklükleri modellememizi sağlayan meta-uyarlama ilkesini öneriyoruz. Meta-uyarlama, epizodik öğrenmeyi kullanarak bir ara öğrenme adımı olarak AANT sonuçlarını iyileştirecek tümevarımsal önyargıların öğrenilmesine olanak sağlar. Önerilen RL tabanlı meta-uyarlama yaklaşımıyla, kayıp fonksiyon parametrelerini ve büyütme büyüklüklerini modelliyoruz ve AANT probleminde en iyi sonuçları elde ediyoruz.

Özet (Çeviri)

Object detection is considered one of the most challenging problems in computer vision since it requires correctly predicting both the object classes and their locations. In the literature, object detection approaches are usually trained in a fully-supervised manner, with a large amount of annotated data for all classes. Since data annotation is costly in terms of both time and labor, there are also alternative object detection methods, such as weakly supervised or mixed supervised learning to reduce these costs in the literature. In this thesis, our focus is handling object detection problem with minimum supervision. In this context, we first define a difficult scenario namely zero-shot object detection (ZSD), where no visual training data is available for some of the target object classes. Secondly, we focus on the few-shot object detection (FSOD) problem and propose the novel meta-tuning principle. In the ZSD problem, we propose an approach that uses visual class embeddings and convex combinations of semantic embeddings in the classification part of single-stage object detectors. Following the proposed method, we focus on using more informative word embeddings, background modeling, and potential applications for ZSD methods. We first analyze the use of embedding vectors in deep models since these vectors are an essential knowledge source for zero-shot learning (ZSL), and we propose a novel approach that transforms semantically meaningful word vectors into visually meaningful ones. We show that using the proposed visually meaningful word embedding vectors obtain state-of-the-art results in the zero-shot classification (ZSC) problem. Then, we propose the first attempt to handle the background modeling in ZSD using a novel textual attention mechanism. Finally, we introduce a new problem within the scope of ZSD applications, which we call zero-shot image captioning (ZSIC), where the input images may consist of unseen object instances. The proposed ZSIC method use template-based sentence generators and fills the empty visual template slots with object proposals obtained from ZSD methods. In this context, we also propose a new evaluation metric called V-METEOR to evaluate the caption qualities more accurately for the ZSIC problem. In this thesis, we also focus on the FSOD problem and propose the meta-tuning principle, which allows us to model interpretable loss functions/data augmentation magnitudes in few-shot settings. Meta-tuning allows learning inductive biases that boost FSOD as an intermediate learning step using episodic learning. With the proposed RL-based meta-tuning approach, we model the loss function parameters and augmentation magnitudes, and obtain state-of-the-art results in the FSOD problem.

Benzer Tezler

Tez No
457169
Object detection using optical and LiDAR data fusion with graph-cuts
Çizge kesit ile optik ve LiDAR veri füzyonu kullanarak nesne tespiti
ONUR TAŞAR
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM AKSOY
Tez No
149730
Radyografik görüntülerin modellenmesi ve buna ilişkin yazılım paketinin geliştirilmesi
To model radiographic images and develop a software package according to this modelling techniques
SERDAR BALTACI
Yüksek Lisans
Türkçe
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
PROF.DR. AYDIN ÖZTÜRK
Tez No
647585
Hapishanelerde ifade özgürlüğü bağlamında kitap yasakları
Book bans in the context of freedom of expression in prisons
EVİN NAZ ERCAN
Yüksek Lisans
Türkçe
2020
Hukuk Galatasaray Üniversitesi
Kamu Hukuku Ana Bilim Dalı
DOÇ. DR. ÖZEN ÜLGEN ADADAĞ
Tez No
82583
Rapid application development classes for database applications
Veritabanı uygulamaları için hızlı uygulama geliştirme nesne sınıfları
ATAKAN ERDEM
Yüksek Lisans
İngilizce
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET COŞAR
Tez No
948039
Robot hücresi içerisinde yapay zekâ ve görüntü işleme tabanlı parça besleme kontrolü
Artifical intelligence and image processing-based part feeding control in a robot cell
ENESALP ÖZ
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Sakarya Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR

Geri Dön