Geri Dön

Human pose and shape estimation based on masked mesh modelling from single view RGBD

Tek bir bakış açısından RGBD'den maskelenmiş örgü modellemeye dayalı insan pozu ve şekli tahmini

  1. Tez No: 830120
  2. Yazar: ÖZHAN SUAT
  3. Danışmanlar: DOÇ. DR. EMRE AKBAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 60

Özet

Bu tez, insan vücudunun 3B pozunu ve şeklini tek bir RGBD görüntüden tahmin etme gibi zorlu bir görevi amaçlamaktadır. Bu araştırmanın motivasyonu, sınırlı görsel ipuçlarından insan vücudu şeklini ve eklemlerini doğru bir şekilde yakalayabilen bir yöntem geliştirmektir. Bunun için, tek-görünümlü RGBD verilerinden çıkarılan kısmi bilgileri etkin bir şekilde tamamlayan transformer tabanlı modelleri kullanan yeni bir yaklaşım öneriyoruz. Tamamen denetimli eğitim, RGBD görüntüsü ve 3B örgü etiket çiftleri içeren bir veri kümesi gerektirir. Ancak, böyle bir veri kümesini toplamak maliyetli ve zordur; bu nedenle, mevcut veri kümeleri poz ve şekil çeşitliliği azdır ve boyut olarak küçüktür. Bunu aşmak için ağımızı eğitmek üzere hareket yakalama veri kümelerinden yararlanıyoruz. Yaklaşımımız, hareket yakalama veri kümelerinden gövde modellerini kullanarak kısmi nokta bulutları ve 3B insan vücut örgüsü çiftleri oluşturmayı içeriyor. Kısmi bir nokta bulutu, bir RGBD kameranın tek bir bakış açısından sağladığı derinlik verilerinin türünü simüle eder. Oluşturulan bu çiftleri kullanarak modelimizi eğitiyoruz. Test sırasında, yöntemimiz, RGBDden oluşturulan 3B noktalar ile 3B insan vücudu yüzeyindeki noktaları eşleştirmek için 2B görsel ipuçlarını kullanır. Bunun için, bir RGB görüntüsünden bir UV haritası oluşturan kullanıma hazır bir 2B yöntem kullanıyoruz. UV harita değerlerini 3B insan vücudu modeli UV değerlerine eşleyerek, 2B görüntüde vücut modeli noktalarını buluyoruz. 2B vücut modeli noktaları derinlik bilgisi kullanılarak 3B uzaya konumlandırılır.Yöntemimizin temel katkısı, maskeli görüntü modelleme çabalarına benzer şekilde, insan vücudu modelindeki eksik ayrıntıları doldurmak için transformer kullanmaktır. Metodumuz, 3B insan vücudu örgü modelinin görünmeyen kısımlarını tamamlayarak tüm vücut örgüsünü oluşturur. Yöntemimiz, 3DPW ve BEHAVE veri kümelerinde sırasıyla 40.64, 83.59 PVE ve 37.36, 68.15 MPJPE hatası elde ederek yaklaşımımızın etkinliğini doğrulamaktadır.

Özet (Çeviri)

This thesis is aimed at the challenging task of estimating the 3D pose and shape of a human body from a single-view RGBD image. The primary motivation driving this research is to develop a robust method capable of accurately capturing human body shapes and articulations from limited visual cues. To address this objective, we propose a novel approach, integrating transformer-based models to complete partial information extracted from single-view RGBD data effectively. A fully supervised approach requires a dataset with RGBD image and 3D mesh label pairs. However, collecting such a dataset is costly and challenging, hence, existing datasets are limited in pose and shape diversity and small in size. To overcome this lack of data, we leverage MoCap datasets to train our network. Our approach involves creating pairs of“partial”point clouds and 3D human body meshes by utilizing body models from MoCap datasets. A partial point cloud simulates the type of depth data that a RGBD camera provides from a single viewpoint. We train our model using these generated pairs. During testing, our method uses 2D visual cues to find correspondence between 3D points generated from RGBD and vertices from the 3D human body mesh surface. To achieve this, we utilize an off-the-shelf 2D UV map estimator to generate a UV map from an RGB image. By mapping UV map values to 3D human body model UV values, we locate body model vertices in the 2D image. The 2D vertex locations are then lifted to 3D space using the depth channel information. The key contribution of our method is using transformers to fill in missing details in the human body model, similar to efforts in masked image modeling. Our method effectively recovers parts of the 3D human body mesh model that were not visible, resulting in a full body mesh. Our method achieves 40.64 and 83.59 PVE and 37.36, 68.15 MPJPE errors on the 3DPW and BEHAVE datasets respectively, validating the effectiveness of our approach.

Benzer Tezler

  1. Occlusion-aware benchmarking in 3D human pose and shape estimation

    3B insan pozu ve şekli tahmininde örtme duyarlı kıyaslama

    EMRE GİRGİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. LALE AKARUN ERSOY

  2. Exploring dense depth predictions as a supervision source for human pose and shape estimation

    Yoğun derinlik tahminlerinin insan poz ve şekil tahmini için bir denetim kaynağı olarak incelemesi

    BATUHAN KARAGÖZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE AKBAŞ

  3. İnsan hareketlerinin takibinde karşılaşılan problemlerin çözümüne yeni yaklaşımlar

    New approaches to solve encountered problems in tracking of human movements

    MUHAMMED FATİH TALU

    Doktora

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM TÜRKOĞLU

    PROF. DR. MEHMET CEBECİ

  4. Deep learning-based keypoints driven visual inertial odometry for GNSS-denied flight

    Yapay sinir ağları tabanlı nokta çıkarıcılı görsel-ataletsel odometri ile GPS'siz ortamda uçuş

    ARSLAN ARTYKOV

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE KOYUNCU

  5. Utilization of 3D data in face recognition

    Başlık çevirisi yok

    NESLİ ERDOĞMUŞ