Human pose and shape estimation based on masked mesh modelling from single view RGBD

Tek bir bakış açısından RGBD'den maskelenmiş örgü modellemeye dayalı insan pozu ve şekli tahmini

PDF İndir

Tez No: 830120
Yazar: ÖZHAN SUAT
Danışmanlar: DOÇ. DR. EMRE AKBAŞ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 60

Özet

Bu tez, insan vücudunun 3B pozunu ve şeklini tek bir RGBD görüntüden tahmin etme gibi zorlu bir görevi amaçlamaktadır. Bu araştırmanın motivasyonu, sınırlı görsel ipuçlarından insan vücudu şeklini ve eklemlerini doğru bir şekilde yakalayabilen bir yöntem geliştirmektir. Bunun için, tek-görünümlü RGBD verilerinden çıkarılan kısmi bilgileri etkin bir şekilde tamamlayan transformer tabanlı modelleri kullanan yeni bir yaklaşım öneriyoruz. Tamamen denetimli eğitim, RGBD görüntüsü ve 3B örgü etiket çiftleri içeren bir veri kümesi gerektirir. Ancak, böyle bir veri kümesini toplamak maliyetli ve zordur; bu nedenle, mevcut veri kümeleri poz ve şekil çeşitliliği azdır ve boyut olarak küçüktür. Bunu aşmak için ağımızı eğitmek üzere hareket yakalama veri kümelerinden yararlanıyoruz. Yaklaşımımız, hareket yakalama veri kümelerinden gövde modellerini kullanarak kısmi nokta bulutları ve 3B insan vücut örgüsü çiftleri oluşturmayı içeriyor. Kısmi bir nokta bulutu, bir RGBD kameranın tek bir bakış açısından sağladığı derinlik verilerinin türünü simüle eder. Oluşturulan bu çiftleri kullanarak modelimizi eğitiyoruz. Test sırasında, yöntemimiz, RGBDden oluşturulan 3B noktalar ile 3B insan vücudu yüzeyindeki noktaları eşleştirmek için 2B görsel ipuçlarını kullanır. Bunun için, bir RGB görüntüsünden bir UV haritası oluşturan kullanıma hazır bir 2B yöntem kullanıyoruz. UV harita değerlerini 3B insan vücudu modeli UV değerlerine eşleyerek, 2B görüntüde vücut modeli noktalarını buluyoruz. 2B vücut modeli noktaları derinlik bilgisi kullanılarak 3B uzaya konumlandırılır.Yöntemimizin temel katkısı, maskeli görüntü modelleme çabalarına benzer şekilde, insan vücudu modelindeki eksik ayrıntıları doldurmak için transformer kullanmaktır. Metodumuz, 3B insan vücudu örgü modelinin görünmeyen kısımlarını tamamlayarak tüm vücut örgüsünü oluşturur. Yöntemimiz, 3DPW ve BEHAVE veri kümelerinde sırasıyla 40.64, 83.59 PVE ve 37.36, 68.15 MPJPE hatası elde ederek yaklaşımımızın etkinliğini doğrulamaktadır.

Özet (Çeviri)

This thesis is aimed at the challenging task of estimating the 3D pose and shape of a human body from a single-view RGBD image. The primary motivation driving this research is to develop a robust method capable of accurately capturing human body shapes and articulations from limited visual cues. To address this objective, we propose a novel approach, integrating transformer-based models to complete partial information extracted from single-view RGBD data effectively. A fully supervised approach requires a dataset with RGBD image and 3D mesh label pairs. However, collecting such a dataset is costly and challenging, hence, existing datasets are limited in pose and shape diversity and small in size. To overcome this lack of data, we leverage MoCap datasets to train our network. Our approach involves creating pairs of“partial”point clouds and 3D human body meshes by utilizing body models from MoCap datasets. A partial point cloud simulates the type of depth data that a RGBD camera provides from a single viewpoint. We train our model using these generated pairs. During testing, our method uses 2D visual cues to find correspondence between 3D points generated from RGBD and vertices from the 3D human body mesh surface. To achieve this, we utilize an off-the-shelf 2D UV map estimator to generate a UV map from an RGB image. By mapping UV map values to 3D human body model UV values, we locate body model vertices in the 2D image. The 2D vertex locations are then lifted to 3D space using the depth channel information. The key contribution of our method is using transformers to fill in missing details in the human body model, similar to efforts in masked image modeling. Our method effectively recovers parts of the 3D human body mesh model that were not visible, resulting in a full body mesh. Our method achieves 40.64 and 83.59 PVE and 37.36, 68.15 MPJPE errors on the 3DPW and BEHAVE datasets respectively, validating the effectiveness of our approach.

Benzer Tezler

Tez No
881618
Occlusion-aware benchmarking in 3D human pose and shape estimation
3B insan pozu ve şekli tahmininde örtme duyarlı kıyaslama
EMRE GİRGİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. LALE AKARUN ERSOY
Tez No
890868
Exploring dense depth predictions as a supervision source for human pose and shape estimation
Yoğun derinlik tahminlerinin insan poz ve şekil tahmini için bir denetim kaynağı olarak incelemesi
BATUHAN KARAGÖZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE AKBAŞ
Tez No
269985
İnsan hareketlerinin takibinde karşılaşılan problemlerin çözümüne yeni yaklaşımlar
New approaches to solve encountered problems in tracking of human movements
MUHAMMED FATİH TALU
Doktora
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM TÜRKOĞLU
PROF. DR. MEHMET CEBECİ
Tez No
883414
Deep learning-based keypoints driven visual inertial odometry for GNSS-denied flight
Yapay sinir ağları tabanlı nokta çıkarıcılı görsel-ataletsel odometri ile GPS'siz ortamda uçuş
ARSLAN ARTYKOV
Yüksek Lisans
İngilizce
2023
Uçak Mühendisliği İstanbul Teknik Üniversitesi
Uçak ve Uzay Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE KOYUNCU
Tez No
401349
Utilization of 3D data in face recognition
Başlık çevirisi yok
NESLİ ERDOĞMUŞ
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Institut Mines-Télécom
PROF. DR. JEAN-LUC DUGELAY

Geri Dön