Recovering 6D Object Pose at the Level of Instances and Categories
Örnekler ve kategoriler düzeyinde 6d nesne pozu kurtarma
- Tez No: 780256
- Danışmanlar: DOÇ. DR. TAE-KYUN KIM
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Imperial College London
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 134
Özet
6D nesne poz tahmini, kamera merkezli koordinatlarda bir nesnenin 3B konumunu ve 3B rotasyonunu belirleyen bilgisayar görüşü alanında önemli bir sorundur. Robotik ve artırılmış gerçeklik gibi hızla gelişen birçok teknolojik alan için büyük önem taşıdığından, bu problem son on yılda kapsamlı bir şekilde incelenmiştir. Bu tez, problemi hem örnekler hem de kategoriler düzeyinde ele almaktadır. Örnekler düzeyinde, bir sınıflandırmanın öğrenildiği kaynak veriler, sınıflandırıcıların test edileceği hedef verilerle aynı istatistiksel dağılımları paylaşır. Görülen nesnelerin 6D pozlarını tahmin etmek, bakış açısı değişkenliği, tıkanma, dağınıklık ve benzer görünen çeldiriciler örnek düzeyinde 6D nesne poz tahmininin ana zorlukları arasında yer alır. Öte yandan, kategori düzeyinde kaynak ve hedef alanlar arasında bir dağılım kayması vardır. Nesneler arasındaki yüksek sınıf içi varyasyonlar ve şekil farklılıkları, belirli bir kategorideki görünmeyen nesnelerin 6D pozlarının tahmin edildiği kategori düzeyindeki 6D nesne tahmin probleminin ana zorlukları arasında yer alır. Bu tez felsefi olarak, bu iki 6D nesne ailesi, tahmin problemi ve bunlara karşılık gelen zorluklara dayanmaktadır. Bu tezin örnek düzeyindeki 6D nesne poz tahmin problemine yaklaşma yolları iki katmanlıdır: İlk olarak, bilgisayar görüş alanının örnek düzeyinde 6D nesne poz tahmini ile ilgili mevcut konumu, problemle ilgili kapsamlı çok modlu analizler sunarak incelenmiştir. Örneklerin zorlukları, aşağıdaki soruları yanıtlamak için çeşitli 6D dedektörlerinin performanslarını karşılaştıran RGB-D görüntülerde tartışılmaktadır: Robotik manipülasyonda“otomasyonu”sürdürmek için bilgisayarla vizyon topluluğunun mevcut konumu nedir? Nesneleri işlerken robotikte“özerkliği”geliştirmek için topluluk hangi sonraki adımları atmalıdır? İkinci olarak, yeni bir parça tabanlı rastgele forest mimarisi, İteratif Hough Forest (IHF) tanıtıldı. Bu mimari, aday bir 2D sınırlayıcı kutu verildiğinde 6D' nin oluşturduğu tıkalı ve dağınık nesneleri tahmin edebilir. Yalnızca pozitif örneklerden çıkarılan parçalar kullanılarak öğrenilir. Bu parçalar, yakın zamanda tanıtılan Örtük B-Spline' lardan (IBS) türetilen bir“ölçek varyantı”örtük hacimsel açıklama olan Kontrol Noktalarının Histogramı (HoCP) ile temsil edilir. Bu ölçek varyansının sağladığı zengin ayırt edici bilgiler, nesnenin ilk poz tahmininin daha ayırt edici kontrol noktalarına dayalı olarak yinelemeli olarak iyileştirildiği çıkarım sırasında kullanılır. Bu tez daha sonra, derinlik modalitesi bağlamında kategoriler düzeyinde 6D nesnesi poz tahmin problemini ele almaktadır. Kategorilerin zorluklarının üstesinden gelebilecek yeni bir parça tabanlı mimari tanıtıldı. Bu mimari, özellikle şekil farklılıklarından kaynaklanan dağıtım değişimlerini uyarlar ve doğal olarak doku, aydınlatma, poz varyasyonlarını ortadan kaldırır ve bu nedenle“İç Yapı Adaptörü (ISA)”olarak adlandırılır. ISA, aşağıdakilere dayalı olarak tasarlanmıştır: i)“6D pozu”kategoriler düzeyinde tanımlamak için“Semantik Olarak Seçilmiş Merkezler (SSC)”önerilmektedir. ii) Şekil değişmez özellikler olarak türetilen 3 boyutlu iskelet yapılar, verilen kategorilerin örneklerinden çıkarılan parçaları temsil etmek için kullanılır ve bu parçalara göre ayrıcalıklı tek sınıf öğrenme kullanılır. iii) Grafik eşleştirme, eğitim sırasında, önerilen mimarinin uyarlama / genelleme kabiliyetinin görünmeyen durumlarda iyileştirileceği şekilde gerçekleştirilir.
Özet (Çeviri)
6D object pose estimation is an important problem in the realm of computer vision that determines the 3D position and 3D rotation of an object in camera-centered coordinates. It has extensively been studied in the past decade as it is of great importance to many rapidly evolving technological areas, such as robotics and augmented reality. This thesis addresses the problem at the level of both instances and categories. At the level of instances, source data from which a classi er is learnt share the same statistical distributions with the target data on which classi ers will be tested. Estimating 6D poses of seen objects, viewpoint variability, occlusion, clutter, and similar looking distractors are the main challenges of instance-level 6D object pose estimation. On the other hand, there is a distribution shift among source and target domains at the level of categories. High intra-class variations and shape discrepancies between objects are the main challenges of the category-level 6D object pose estimation problem, in which 6D poses of unseen objects of a given category are estimated. This thesis is philosophically built upon these two families of 6D object pose estimation problem and their corresponding challenges. The ways this thesis approaches the instance-level 6D object pose estimation problem are twofold: Firstly, the current position of the computer vision eld regarding instance-level 6D object pose estimation is investigated presenting thorough multi-modal analyses on the problem. The challenges of instances are discussed in RGB-D images comparing the performances of several 6D detectors in order to answer the following questions: What is the current position of the computer vision community for maintaining \automation“ in robotic manipulation? What next steps should the community take for improving \autonomy”in robotics while handling objects? Secondly, a novel part-based random forest architecture, Iterative Hough Forest (IHF), is introduced. This architecture is capable of estimating occluded and cluttered objects 6D pose given a candidate 2D bounding box. It is learnt using parts extracted only from the positive samples. These parts are represented with Histogram of Control Points (HoCP), a \scale-variant“ implicit volumetric description, which is derived from recently introduced Implicit B-Splines (IBS). The rich discriminative information provided by this scale-variance is leveraged during inference, where the initial pose estimation of the object is iteratively re ned based on more discriminative control points. The thesis next addresses the 6D object pose estimation problem at the level of categories in the context of depth modality. A novel part-based architecture that can tackle the challenges of categories is introduced. This architecture particularly adapts distribution shifts arising from shape discrepancies, and naturally removes the variations of texture, illumination, pose, and hence, it is called as \Intrinsic Structure Adaptor (ISA)”. ISA is engineered based on the followings: i) \Semantically Selected Centers (SSC)“ are proposed in order to de ne the \6D pose”at the level of categories. ii) 3D skeleton structures, which are derived as shape-invariant features, are used to represent the parts extracted from the instances of given categories, and privileged one-class learning is employed based on these parts. iii) Graph matching is performed during training in such a way that the adaptation/generalization capability of the proposed architecture is improved across unseen instances.
Benzer Tezler
- Sulu çözeltilerden hollow fiber membranlar ile metal kazanımı
Recovering metal from aqueous solutions by hollow fiber membrane
KÜRŞAD OĞUZ OSKAY
Yüksek Lisans
Türkçe
2013
Metalurji MühendisliğiCumhuriyet ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET KUL
- Recovering Efemçukuru gold ores by flotation
Efemçukuru altın cevherinin flotasyon yöntemi ile zenginleştirilmesinin araştırılması
MEHMET BARAN TUFAN
Yüksek Lisans
İngilizce
2010
Maden Mühendisliği ve MadencilikDokuz Eylül ÜniversitesiMaden Mühendisliği Ana Bilim Dalı
DOÇ. DR. EROL KAYA
- Çifte ağ metoduyla\stereo, odak ve bulanıklık bilgisini kullanarak resimlerden derinlik çıkarımı
Recovering 3D structure from images with dual meshes by using stereo, focus and defocus information
TARKAN AYDIN
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF SİNAN AKGÜL
- Afyon alkaloidleri fabrikası sıvı – sıvı ekstraksiyonu sırasında atık olarak çıkan kodeinin geri kazanımı
Recovering codeine as a waste during liquid – liquid extraction in opium alkaloids factory
GÖKHAN ŞAHİN
Yüksek Lisans
Türkçe
2019
Kimya MühendisliğiAfyon Kocatepe ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OĞUZHAN ALAGÖZ
- Kürlenme ve kurutma fırını baca gazı atık ısısının kazanılması
Recovering waste heat of curing and drying chimneys as recyclable energy
SEZGİN ÇAVUŞOĞLU
Yüksek Lisans
Türkçe
2020
EnerjiMarmara ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA ATMACA