2022.01.02 Progress

Survey 현황

NeuMan: 논문 다 읽음, 읽으면서 쓴 글 → 설렁설렁... 나중에 다듬지 뭐
CVPR 뭐시기: 읽다 말았음

Code

TO-DO

[x] NeuMan 셋업
[x] 새로운 포즈 빌드해보기
[ ] 커스텀: 새로운 비디오에 대해서 해보기 (깃허브 페이지에 설명 되어있음)

[과정] NeuMan 셋업

주의사항: GPU 기종에 따른 CUDA 버전 문제

상황: 그냥 conda env create -f environment.yml 했더니 GPU CUDA 버전 안맞는 에러 뜸.
해결: NeuMan 깃이슈에 비슷한 문제 참고
도커빌드 셋팅 바꿔야하나? (X) -> 걍 conda env 생성때만 CUDA 11로 수정

[2023.01.11 추가] 하.......... 해결이 아니었음. preprocessing이 안돌아서 중간에 추가함. detectron2 이런거 다 깔리고 conda env도 만든줄 알았는데 아니었음. neuman_env만 있네??

Dockerfile 수정. 고통...... 이거 참고. https://github.com/apple/ml-neuman/issues/29#issuecomment-1255174483
docker build -t neuman-preprocess .

IDC에 도커 빌드중. 뭐가 잘 안되던데... 걍 기다리면 되는거였음. 94%에서 오래 걸린다. 아무튼 만들었음 (ddde5018e348)
도커 이미지에는 ROMP, detectron2, mmpose, miniconda 등 셋업 되어있음. 도커 컨테이너 생성하기.
conda 환경 셋업: conda env create -f environment.yml or cuda 버전 다르게 약간 수정
conda activate neuman_env
** NeuMan Dataset: pretrained.zip, dataset.zip 다운받아서 옮겨주자 (이건 그냥 스크립트 실행해도 됨)
* SMPL Models: SMPL weights 다운받기: uv map은 .obj 파일로 되어있음 (SMPL -> Download UV map in OBJ format) Neutral SMPL weights 다운받기: (Smplify -> SMPLIFY_CODE_V2.ZIP)
** NeuMan Github 페이지에 있는 것 처럼 render, train 코드 돌아가나 체크하기

canonical pose render 실행

demo/canonical_360 안에 *.png 파일 40개 생성. 사람 모델
Lossy conversion from float32 to uint8. Range [0, 1]. Convert image to uint8 prior to saving to suppress this warning. 경고가 뜨긴 한다.

[과정] 새로운 포즈 빌드해보기

AMASS (ICCV19)

용도: 새로운 pose 사용할거면 이거 셋업 필요함 (render_{reposing, gathering}.py 에서 사용)
사이트: https://amass.is.tue.mpg.de/index.html
1. Download -> SFU mocap(SMPL+H G)만 다운로드, data/SFU에 옮김
2. render_reposing.py 돌려서 렌더링 해보기 demo/reposing 안에 *.png 생성.
3. render_telegathering.py 돌려서 렌더링 해보기 여기선 actors를 여러명 지정해주는구나

Telegathering

무슨 warning이지... 암튼 돌아감
카메라 포즈와 사람들의 춤 동작이 바뀌었다.

[Optional] ZJU Mocap dataset

용도: NeuMan 논문에서 NeuMan Dataset 만들어서 쓰긴 했는데, ZJU Mocap dataset도 같이 썼었음.
Mocap이 뭐지? https://accad.osu.edu/research/motion-lab/mocap-system-and-data
데이터 다운: 동의서 작성해서 메일로 따로 받아야함. https://github.com/zju3dv/neuralbody/blob/master/INSTALL.md#zju-mocap-dataset

코드를 대충 뜯어보자.

TO-DO

[x] 데이터 구성 살펴보기
[x] preprocessing 과정 알아보기
[ ] Render 과정 뜯기 - reposing 코드로 볼거임
[ ] 그리고 사람 추가하는거 깔짝..? - telegathering으로
[x] train 부분 보기
[ ] NeRF 모델 구현 뜯기

NeuMan 데이터, pre-trained model

pretrained models: out/ (.pth.tar)

데이터셋: data/{video_name}/*

다운 받으면 NeuMan Dataset은 아래와 같이 구성되어있다.

우선, 폴더는 비디오 클립 기준으로 나뉘어있다. 아래 내용은 'bike'를 예시로 봤다.

images: 비디오 프레임 자른 것 (*.png)
100장 정도

preprocessing data 구성

학습에 필요한 것들. 모든 프레임에 대해 아래 내용들이 있다.

Depth Map

mono_depth: grayscale image (*.png) depth scale 궁금하다. 알고리즘상 어차피 resize해서 stereo depthmap에 맞출거라 상관 없긴 하지만... 코드에서처럼 imageio.imread(self.depth_path) / 10000.0로 읽으면 [0.0~6.5535] 범위였음
depth_maps: stereo로 구한 것 (*.png.geometric.bin) float값, shape=(711, 1265) 저장되어있음. 이 레포에 있는 read_array()함수로 읽으면 값이 [0.0~ 3천대] 까지도 있음.
그런데 read_colmap_bin()보면 뒷부분에 np.percentile 거쳐서 뭐 하는거 있어서... 최종적으로는 [0.0~ 12.993674] 범위.

학습할때는 이렇게 불러온 값에 scale 곱하는 듯..?

KeyPoints & Pose

keypoints: (*.png.npy) float32값 numpy array, shape=(17,3)
densepose: (*.png.npy) uint8값 numpy array, shape=(711, 1265)

Segmentation

segmentations: binary 이미지. 사람이 검정, 배경이 흰색 (*.png)

SMPL

smpl_pred: (*.npz) npz 파일은 여러개 리스트 저장하고싶을때 쓴다고 함. np.load(path, allow_pickle=True)해서 .files하면 'results'가 있음. 읽어서 dictionary key와 shape을 출력하면 아래와 같다.
cam (3,)
poses (72,)
betas (10,)
j3d_all54 (54, 3)
j3d_smpl24 (24, 3)
j3d_spin24 (24, 3)
j3d_op25 (25, 3)
verts (6890, 3)
pj2d (54, 2)
pj2d_org (54, 2)
trans (3,)
center_conf (1,)

아래 내용은 비디오별로 파일 하나만 있는 것.

ROMP: smpl_output_romp.pkl
smpl_output_optimized.pkl
alignments.npy

파일 각각이 뭘 의미하는지는 Preprocessing 과정을 보면 좀더 알 수 있을 것 같다.

[OPTIONAL] Preprocessing 과정?

NeuMan Dataset 안에 있긴 하지만 새 비디오에 대해서 학습하고 싶을때는 다음과 같은 과정이 필요하다.

Input: video
Tools: COLMAP, Detectron2, mmpose, ROMP, BoostingMonocularDepth
How? preprocess/gen_run.py 실행 알아서 다 해줌.
주의사항: docker 생성 시 제발 --init 붙이기. 컨테이너 좀비 방지. 이미지가 너무 커서....... http://cloudrain21.com/examination-of-docker-process-binary

과정 설명

비디오 -> 프레임 자름 (save_video_frames.py 참고) out: 최종 프레임 아님. 뒤에서 뭐 처리함 (raw_720p/*)
Segmentation Mask 생성: Detectron2 사용 instance segmentation 돌림. out: (raw_masks/*) 최종 마스크 아님! SIFT 돌리는데 쓰는 것.
Sparse Scene Reconstruction: colmap 사용 SIFT Feature 뽑음 (여기서 raw_mask 사용!) -> SIFT Feature Matching함 (recon/db.db 생성) 1의 raw frame과 위에서 뽑은 feature 이용해서 -> colmap mapper를 사용함 (recon/sparse/ 생성) 1의 raw frame과 위에서 뽑은 (recon/sparse/0) 이용해서 -> colmap의 image_undistorter 돌림. (recon/dense/ 생성) 방금 뽑은 dense를 이용해서 -> colmap의 patch_match_stereo를 돌림 model_converter 돌림 out: 결과적으로 recon/dense/ 안에 images, depth_maps, sparse가 들어있는데, 얘넨 최종 결과물임. 중간 파일은 recon/에 있음.
Rectified image에 대해 Mask 구하기 (Segmentation) 2랑 똑같이 돌림. 여기엔 방금 만든 images 넣음 (rectified) out: 최종 결과물 segmentations
DensePose apply_net.py 실행. out: 비디오마다 densepose/output.pkl 생성. 최종 결과물 아님. 이미지별로 자르나...? 뭐지
mmpose 실행: 2D Keypoints detector mmpose의 demo/bottom_up_img_demo.py 실행해서 키포인트 뽑음 (rectified) 이미지만 있으면 됨. out: keypoints 생성, 최종 결과물.
Monocular Depth Estimation: BoostingMonocularDepth 사용 (rectified) 이미지만 있으면 됨. out: mono_depth 생성, 최종 결과물.
SMPL Parameter 구하기: ROMP 사용 ROMP (논문 링크)는 RGB 이미지 있으면 거기서 사람 여러명에 대해 3d mesh를 추정할 수 있는 알고리즘. (rectified) 이미지만 있으면 됨. out: smpl_pred 생성, 최종 결과물.
Scale 보정: 추정한 SMPL mesh(ROMP, 8에서 구한 것)와 sparse scene reconstruction (COLMAP, 3에서 구했던 sparse) 한것을 alignment해서 구함 export_alignment.py 실행해서 구함. input: (rectified) image, scene은 sparse, raw_smpl인 smpl_pred. (smpl_estimator 옵션에 romp를 주던데 이건 뭐지) smpl_pred 폴더에 있는 결과물(이미지 각각에 대한 넘파이 파일)들 읽어와서 일단 *.pkl파일 만듦. 그리고 바닥 닿는거 구한다음에 solve_translation(), solve_scale()해서 alignments.npy 구하는 것임. solve_translation은, translation parameter를 Adam optimizer 써서 1천 iter돌림. 3d점(여기에 translation 파라미터 들어감) -> 2d점으로 projection 한다음에 실제 2d점과의 mse_loss로 학습. solve_scale은 ray-plane intersection problem으로 정의해서 푼다고함. 주석으로 설명은 많이 되어있는데 그냥 간단하게 좌표값으로 사칙연산해서 간단하게 구하는 듯...? out: alignments.npy, smpl_output_romp.pkl 생성. 최종 결과물, 비디오마다 하나씩 구함.
silhouette을 사용한 SMPL Optimization optimize_smpl.py을 실행하여 생성. input: scene_dir로 지금까지 생성된 output path를 다 넣어버려서, 정확히 어떻게 돌아가는지 몰겠음. 코드 봐야함 out: smpl_output_optimized.pkl 생성, 최종 결과물, 비디오마다 하나씩 구함.

Q. 9번에서 smpl_cap에 카메라 내부, 외부 파라미터 있던데 어떻게 구하지

읽어볼 자료?

preprocessing에서 딴건 대충 알겠는데 pose를 안해봐서 모르겠음. densepose로 뽑은건 왜 이미지 사이즈랑 똑같지? OpenPose 보면 관절 keypoint 좌표 어딘지만 저장하지 않나..?

Pose Estimation OpenPose, DensePose 설명

OpenPose: 예전에 유행했던거... caffe, opencv로 구현되어 있었고, 관절을 찾음
DensePose: 오픈포즈 이후에 나옴. RGB 이미지 상의 3D 표면에 맵핑, pixelwise regression?

아 졸려...

joblib.open()

smpl_output_romp.pkl ['verts', 'joints3d', 'joints2d_img_coord', 'pose', 'betas']

smpl_output_optimized.pkl ['pose', 'betas'] 모든 프레임에 대해 있음

Render 과정?

render_360.py로 scene or human 360도 생성하는구나.

main_canonical_360()

scene 읽음. neuman_helper.NeuManReader.read_scene()

-------아무말ㄹㄹ 렌더링 결과 보니까 camera pose랑 human pose 계속 바뀌네? camera pose도 같이 바뀌는구나 reposing 어떻게 되는지 한번 보자

motion_name={speedvault, ...} <- 이거 지정된 모션만 할 수 있나? 딴거 못하나 코드 중간에 보면 raw_verts, Ts를 직접 지정해도 되고, predefined 값을 써도 되는 것 같은데

train 코드를 볼게요

train_mode가 bkg면 scene nerf 학습, 아니면 human nerf 학습. (smpl only, smpl and offset으로 나뉨. 읭?)

Scene NeRF

가장 먼저 Scene NeRF만 따로 학습하잖아. loss 2개였어. RGB랑 밀도에 대한 regularizer. mask를 보고 사람 없는데서만 ray 뽑을거니까 좌표는 알겠어. 근데 viewing direction은 어디서 가져오는거야?

train.py의 train_background() coarse_net, fine_net = vanilla.build_nerf(opt) train_scene = neuman_helper.NeuManReader.read_scene() vanilla_nerf_trainer.NeRFTrainer의 train()으로 학습

trainers/vanilla_nerf_trainer.py NeRFTrainer의 train_batch()를 볼게요 delay_iter만큼 돌기 전이면 rgb loss만 발생, 그 이후에는 empty_space_loss도 같이 발생시킴. coarse_rgb_loss, coarse_empty_space_loss, fine_rgb_loss, fine_empty_space_loss = self.loss_func(batch, device)

학습 중 validation? 방금 얘기한 loss들 찍고 render한 이미지 저장함. render_utils.render_vanilla()가지고 생성하는데, output은 render, depth 이렇게 두가지. 이 함수에서 coarse_net, fine_net 따로 받는데 딱히 없으면 coarse_net으로 통일

Human NeRF

이거 지금 논문내용(- ppt에 정리)이랑 와리가리 하면서 보고있는데 이어서 쓰겠음. train_human()에 뭐가 많아서 잠깐 튕겨져나옴

smpl에서 static joint 3d랑 joint 3d가지고 먼 threshold를 계산했어 이게 나눠진거

betas는 학습은 안되는거구 그냥 모델에 넣기만 하는건가?

ray 데이터 따로 나눠놨네 봐야지

Preprocessing 관련

컨테이너 하나 좀비되고 뭔가 불길한데..... 컨테이너 안 만들어지기 시작함 악..

아래 글 참고. https://dancefirst.tistory.com/entry/SMPL-%ED%9C%B4%EB%A8%BC-%EB%AA%A8%EB%8D%B8-%EB%B0%8F-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0

전처리 비디오 주의사항

비디오 퀄리티 전반적으로 중요함. 당연한 소리...
카메라 움직임 -> 없으면 안됨. 3/10에서 막힘 (camera intrinsic)
배경에 여러 사람의 등장 -> mask에서는 1명만 잘 인식하더라 해도, ROMP에서 2명 이상 간혹 나올 수 있음. 그러면 SMPL 인식 아예 안되는 프레임이 있거나 2명 이상 뽑히는 프레임 존재 -> 8/10부터 막히게됨

sghong977 / Daily_AIML

[2023.01.02~04] NeRF 시도: NeuMan #17

Survey 현황

Code

TO-DO

[과정] NeuMan 셋업

[과정] 새로운 포즈 빌드해보기

Telegathering

[Optional] ZJU Mocap dataset

TO-DO

NeuMan 데이터, pre-trained model

데이터셋: data/{video_name}/*

preprocessing data 구성

[OPTIONAL] Preprocessing 과정?

과정 설명

읽어볼 자료?

Render 과정?

main_canonical_360()

train 코드를 볼게요

Scene NeRF

Human NeRF

Preprocessing 관련