Recovering 6D Object Pose at the Level of Instances and Categories
Örnekler ve kategoriler düzeyinde 6d nesne pozu kurtarma
- Tez No: 780256
- Danışmanlar: DOÇ. DR. TAE-KYUN KIM
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Imperial College London
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 134
Özet
6D nesne poz tahmini, kamera merkezli koordinatlarda bir nesnenin 3B konumunu ve 3B rotasyonunu belirleyen bilgisayar görüşü alanında önemli bir sorundur. Robotik ve artırılmış gerçeklik gibi hızla gelişen birçok teknolojik alan için büyük önem taşıdığından, bu problem son on yılda kapsamlı bir şekilde incelenmiştir. Bu tez, problemi hem örnekler hem de kategoriler düzeyinde ele almaktadır. Örnekler düzeyinde, bir sınıflandırmanın öğrenildiği kaynak veriler, sınıflandırıcıların test edileceği hedef verilerle aynı istatistiksel dağılımları paylaşır. Görülen nesnelerin 6D pozlarını tahmin etmek, bakış açısı değişkenliği, tıkanma, dağınıklık ve benzer görünen çeldiriciler örnek düzeyinde 6D nesne poz tahmininin ana zorlukları arasında yer alır. Öte yandan, kategori düzeyinde kaynak ve hedef alanlar arasında bir dağılım kayması vardır. Nesneler arasındaki yüksek sınıf içi varyasyonlar ve şekil farklılıkları, belirli bir kategorideki görünmeyen nesnelerin 6D pozlarının tahmin edildiği kategori düzeyindeki 6D nesne tahmin probleminin ana zorlukları arasında yer alır. Bu tez felsefi olarak, bu iki 6D nesne ailesi, tahmin problemi ve bunlara karşılık gelen zorluklara dayanmaktadır. Bu tezin örnek düzeyindeki 6D nesne poz tahmin problemine yaklaşma yolları iki katmanlıdır: İlk olarak, bilgisayar görüş alanının örnek düzeyinde 6D nesne poz tahmini ile ilgili mevcut konumu, problemle ilgili kapsamlı çok modlu analizler sunarak incelenmiştir. Örneklerin zorlukları, aşağıdaki soruları yanıtlamak için çeşitli 6D dedektörlerinin performanslarını karşılaştıran RGB-D görüntülerde tartışılmaktadır: Robotik manipülasyonda“otomasyonu”sürdürmek için bilgisayarla vizyon topluluğunun mevcut konumu nedir? Nesneleri işlerken robotikte“özerkliği”geliştirmek için topluluk hangi sonraki adımları atmalıdır? İkinci olarak, yeni bir parça tabanlı rastgele forest mimarisi, İteratif Hough Forest (IHF) tanıtıldı. Bu mimari, aday bir 2D sınırlayıcı kutu verildiğinde 6D' nin oluşturduğu tıkalı ve dağınık nesneleri tahmin edebilir. Yalnızca pozitif örneklerden çıkarılan parçalar kullanılarak öğrenilir. Bu parçalar, yakın zamanda tanıtılan Örtük B-Spline' lardan (IBS) türetilen bir“ölçek varyantı”örtük hacimsel açıklama olan Kontrol Noktalarının Histogramı (HoCP) ile temsil edilir. Bu ölçek varyansının sağladığı zengin ayırt edici bilgiler, nesnenin ilk poz tahmininin daha ayırt edici kontrol noktalarına dayalı olarak yinelemeli olarak iyileştirildiği çıkarım sırasında kullanılır. Bu tez daha sonra, derinlik modalitesi bağlamında kategoriler düzeyinde 6D nesnesi poz tahmin problemini ele almaktadır. Kategorilerin zorluklarının üstesinden gelebilecek yeni bir parça tabanlı mimari tanıtıldı. Bu mimari, özellikle şekil farklılıklarından kaynaklanan dağıtım değişimlerini uyarlar ve doğal olarak doku, aydınlatma, poz varyasyonlarını ortadan kaldırır ve bu nedenle“İç Yapı Adaptörü (ISA)”olarak adlandırılır. ISA, aşağıdakilere dayalı olarak tasarlanmıştır: i)“6D pozu”kategoriler düzeyinde tanımlamak için“Semantik Olarak Seçilmiş Merkezler (SSC)”önerilmektedir. ii) Şekil değişmez özellikler olarak türetilen 3 boyutlu iskelet yapılar, verilen kategorilerin örneklerinden çıkarılan parçaları temsil etmek için kullanılır ve bu parçalara göre ayrıcalıklı tek sınıf öğrenme kullanılır. iii) Grafik eşleştirme, eğitim sırasında, önerilen mimarinin uyarlama / genelleme kabiliyetinin görünmeyen durumlarda iyileştirileceği şekilde gerçekleştirilir.
Özet (Çeviri)
6D object pose estimation is an important problem in the realm of computer vision that determines the 3D position and 3D rotation of an object in camera-centered coordinates. It has extensively been studied in the past decade as it is of great importance to many rapidly evolving technological areas, such as robotics and augmented reality. This thesis addresses the problem at the level of both instances and categories. At the level of instances, source data from which a classi er is learnt share the same statistical distributions with the target data on which classi ers will be tested. Estimating 6D poses of seen objects, viewpoint variability, occlusion, clutter, and similar looking distractors are the main challenges of instance-level 6D object pose estimation. On the other hand, there is a distribution shift among source and target domains at the level of categories. High intra-class variations and shape discrepancies between objects are the main challenges of the category-level 6D object pose estimation problem, in which 6D poses of unseen objects of a given category are estimated. This thesis is philosophically built upon these two families of 6D object pose estimation problem and their corresponding challenges. The ways this thesis approaches the instance-level 6D object pose estimation problem are twofold: Firstly, the current position of the computer vision eld regarding instance-level 6D object pose estimation is investigated presenting thorough multi-modal analyses on the problem. The challenges of instances are discussed in RGB-D images comparing the performances of several 6D detectors in order to answer the following questions: What is the current position of the computer vision community for maintaining \automation“ in robotic manipulation? What next steps should the community take for improving \autonomy”in robotics while handling objects? Secondly, a novel part-based random forest architecture, Iterative Hough Forest (IHF), is introduced. This architecture is capable of estimating occluded and cluttered objects 6D pose given a candidate 2D bounding box. It is learnt using parts extracted only from the positive samples. These parts are represented with Histogram of Control Points (HoCP), a \scale-variant“ implicit volumetric description, which is derived from recently introduced Implicit B-Splines (IBS). The rich discriminative information provided by this scale-variance is leveraged during inference, where the initial pose estimation of the object is iteratively re ned based on more discriminative control points. The thesis next addresses the 6D object pose estimation problem at the level of categories in the context of depth modality. A novel part-based architecture that can tackle the challenges of categories is introduced. This architecture particularly adapts distribution shifts arising from shape discrepancies, and naturally removes the variations of texture, illumination, pose, and hence, it is called as \Intrinsic Structure Adaptor (ISA)”. ISA is engineered based on the followings: i) \Semantically Selected Centers (SSC)“ are proposed in order to de ne the \6D pose”at the level of categories. ii) 3D skeleton structures, which are derived as shape-invariant features, are used to represent the parts extracted from the instances of given categories, and privileged one-class learning is employed based on these parts. iii) Graph matching is performed during training in such a way that the adaptation/generalization capability of the proposed architecture is improved across unseen instances.
Benzer Tezler
- Sulu çözeltilerden hollow fiber membranlar ile metal kazanımı
Recovering metal from aqueous solutions by hollow fiber membrane
KÜRŞAD OĞUZ OSKAY
Yüksek Lisans
Türkçe
2013
Metalurji MühendisliğiCumhuriyet ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET KUL
- Recovering energy, nutrient and water from waste water of bulgur plants
Bulgur fabrikalarının atık sularından enerji, besin ve su geri kazanımı
FATİH BALCI
Yüksek Lisans
İngilizce
2007
Gıda MühendisliğiGaziantep ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA BAYRAM
- Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi
Recovering JPEG compression loss via deep learning-based super resolution techniques
MUHAMMET BOLAT
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. LÜTFİYE DURAK ATA
DR. NURULLAH ÇALIK
- Atık baskılı devre kartlarından hidrometalurjik yöntemle değerli metallerin (Ag, Pd, Ni) eldesi
Recovering precious metals (Ag, Pd, Ni) from waste printed circuit boards by hydrometallurgical method
ZEYNEP GÜLÇİN SEÇKİN
Doktora
Türkçe
2024
Kimya MühendisliğiYıldız Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU DİDEM ÇORBACIOĞLU
- Emet borik asit fabrikası atıklarından borun kazanılması
Recovering of boron from emet boric acid factory's wastes
ERSİN BÜYÜKYILDIZ