Jungduri / MLPaperReivew

0 stars 0 forks source link

Neural Correspondence Field for Object Pose Estimation #8

Open Jungduri opened 1 year ago

Jungduri commented 1 year ago

Neural Correspondence Field for Object Pose Estimation

official repo: linhuang17.github.io/NCF

Introduction

PIFu-style methods(https://github.com/shunsukesaito/PIFu)와 DRDF(https://nileshkulkarni.github.io/scene_drdf/)에 영감을 받아서 3D implicit representation 기반의 6 DoF object pose estiamtion을 수행합니다.

image

이 논문은 아래와 같은 contributions를 포함하고 있습니다.

  1. 6DoF 객체 포즈 추정을 위한 이 문제를 해결하는 데 있어 3D 암시적 표현의 효율성
  2. 카메라 공간에서 객체 모델 공간으로의 매핑으로 정의을 위해 학습된 3D implicit representation을 위한 NCF(Neural Correspondence Field.
  3. 2D-3D 대응을 기반으로 Base line 연구를 능가하며 세 ​​개의 BOP 데이터 세트에서 월등함

PIFu

image PIFu는 여러개 혹은 하나의 RGB 카메라에서 사람의 segment 정보를 인풋으로 3D reconstruction을 위한 논문입니다. 위의 보이는 그림과 같이 hourglass에서 feature를 뽑아냅니다.

image

reconstruct 하고자 하는 점 x에 대해서 z값과, 사람의 내부의 점인지 외부의 점인지, 그 점에 대한 RGB 텍스쳐 값을 학습하도록 모델이 설계됩니다.

The Proposed Method

2개의 단계로 나누어져 있습니다: (1) 카메라 좌표계와 모델 좌표계의 3D-3D correspondences를 학습, (2) 예측된 correspondences와 6DoF object의 pose를 fitting을 위해 Kabsch-RANSAC algorithm를 사용.

Predicting Dense 3D-3D Correspondences

  1. Neural Correspondence Field (NCF)
image

NCF가 궁극적으로 하고 싶은 task는 F(pi(x))와 x_z를 인풋으로 모델 프레임 좌표계의 3차원 좌표 y와 object 표면과 y의 거리 s를 학습하고 싶은 것입니다.

image image

이를 수식으로 정리하면 위와 같이 표현됩니다. query하려는 model frame 좌표계의 점 x를 2D로 변환 한뒤, hourglass(F)를 forward시키고, 여기서 나온 K차원의 feature와 카메라 프레임 좌표계에서의 x에 상응하는 x_z 를 입력으로 받습니다.

  1. Sampling 3D Query Points 트레이닝 이미지는 다양한 장면에서 객체를 보여줄 수 있으므로 객체 표면 주변에서 쿼리 포인트를 더 조밀하게 샘플링하여 객체에 대한 트레이닝에 집중하는 것이 중요합니다. 실험에서 먼저 세 가지 유형의 점을 샘플링합니다. 표면 근처의 12500개 점, 모델의 경계 구 내부의 1000개 점, 카메라 절두체(frustum) 내부의 1000개 점입니다. 이 지점에서 모델 내부의 2500개 지점과 외부의 2500개 지점을 샘플링합니다. 이 샘플링 전략은 occulsion과 상관없이 동일한 전략을 사용하기 때문에 NCF는 완전한 객체의 표면을 학습하게 됩니다.

추론시에는, object pose에 대한 정보가 없어서 the camera frustum의 depth range안에서 voxels을 설정하여 sampling 합니다.(?)

Pose Fitting

Query point x와 추정된 y를 바탕으로 ftting을 수행합니다. 샘플링 포인트 x가 많기 때문에 object 표면과 멀어진 경우를 추론할 수도 있습니다. 이런 경우를 방지하기 위해서 함께 추론한 object 표면과의 거리 s를 바탕으로 해당 값이 임계값 보다 작은 경우만 살려 fitting을 진행합니다.

pose hypothesis (R, t)는 || Ry + t − x || 2 가 미리 지정된 임계값 보다 적어질때까지 fitting을 진행하게 되고 Kabsch RANSAC 알고리즘을 통해 outlier는 해당 hypothesis를 fitting하는 과정에서 제거 됩니다.

실험 결과

  1. 데이터셋: LM, LM-O, and YCB-V 데이터셋은 RGB-D, 6DoF의 GT를 포함합니다.
  2. 평가 지표: VSD, MSSD, MSPD, AR = AR_VSD + AR_MSSD + AR_MSPD
    • Visible Surface Discrepancy (VSD): 보이는 영역의 표면 정보만으로 평가
    • Maximum Symmetry-Aware Surface Distance (MSSD): 이미 알고 있는 object와 추정한 object의 표면의 대칭 정보에 대한 평가
    • Maximum Symmetry-Aware Projection Distance (MSPD): 보이는 영약에 대한 대칭 정보 평가
image image