[2023.01.16] NeuMan Rendering 코드 뜯기

일단 학습 돌려놓고 그동안 코드부터 미리 봐놓자... 이전 git issue가 너무 길어져서 분리함

Render 보는데 뭔가 이상하다

상황

NeuMan에서 제공하는 사람만 뽑아서 내가 학습한 Scene에 얹고싶은데 코드를 어떻게 바꿔야할지 모르겠다
read_scene에서 사람도 같이 가져오는거였어? 그럼 telegathering은 어떻게 짜둔거야?
미루고 미루던 코드를 봐야겠어
NeuMan Helper에 read_scene이 scene만 읽는게 아닌것같은데????

scene만 렌더링 하는거야 걍 vanilla trainer에서 긁으면 되기야 한다만... pretrained 사람을 얹고싶어서. 암튼 NeuManReader class 이해해야겠엄

scene = neuman_helper.NeuManReader.read_scene(...) scene_dir = data/sample로 넣음

모델이 어떻게 생겨먹은거지. 여기서 발생하는 의문 리스트를 만들테니 답을 하자

학습할때 scene, human을 따로 학습하긴 하지만 checkpoint는 같은 곳에 저장됨
scene 학습 끝: 28MB
human 학습 끝: 37MB
응? 파일 용량이 이렇게 바뀜

checkpoint.pth.tar 읽기

keys: ['epoch', 'iteration', 'optim_state_dict', 'hybrid_model_state_dict']
여기서 human 돌리기 전에는 hybrid 대신에 'coarse_model_state_dict' 이렇게 되어있음.

epoch, iteration: 0, 1000으로 들어간거 봐서 방금 humanNeRF 학습 시작했다고 초기화 된걸까... optim_state_dict: ['state', 'param_groups'] hybrid_model_state_dict

'poses', 'betas', 'alignments', 'da_smpl'
coarse_bkg, fine_bkg 모델 파라미터
offset_nets 파라미터, body_model 파라미터
coarse_human 모델 파라미터

아무튼 (인퍼런스용) 모델이 coarse_bkg, fine_bkg, coarse_human 이렇게 셋으로 나뉘는 듯.

의식의 흐름으로 코드 보기

렌더링 하는 부분 -> 학습하는 부분 -> 각 모델 이러면서 봄... scene, human NeRF 모델 구조를 대략 알았음! smpl model은 귀찮아서 일단 패스.. CheckList

[x] net 말고, telegathering할때 bkg, human_models 어떻게 따로 불러왔는지 보자 답: 걍 모델 불러다가 pretrained pth만 다르게 불러옴. 글고 bkg에서는 coarse fine bkg 모델만 쓰고, 사람들 (actors) 렌더링 할때는 coarse_human 모델만 가져다 쓰는거임. 정확히 어떻게 쓰는지는.. 봐야지
[x] 그러면 human 돌리면서 추가된 파라미터는 뭐지? -> 나중에 scene 암거나 학습 돌리기 시작하면서 찍어보자 답: coarse_human. bkg는 읽어옴
[x] scene Nerf 학습할때, coarse, fine 둘다 학습하는거임? 둘이 같은거 아님? 뭐지? 답: ㅇㅇ
[x] human Nerf 학습할때, coarse_human만 파라미터 업뎃임? bkg들은 그대로? 일단 불러오긴 하던데 답: ㅇㅇ 근데 로스 계산하는데 쓰긴함. scene nerf 파라미터 업데이트만 안하는거임

utils -> render_utils 보면, render_hybrid_nerf: reposing에서 이거 쓰게 되어있음 net, cap, posed_verts, faces, Ts, rays_per_batch=32768, samples_per_ray=64, importance_samples_per_ray=128, white_bkg=True, geo_threshold=DEFAULT_GEO_THRESH, return_depth=False):

render_vanilla: 배경만 렌더링하는것 (scene nerf 학습의 validation때 이거씀) coarse_net, cap, fine_net=None, rays_per_batch=32768, samples_per_ray=64, importance_samples_per_ray=128, white_bkg=True, near_far_source='bkg', return_depth=False, ablate_nerft=False): 렌더링 할때는 out = coarse_net(_pts, _dirs) 이렇게 하고. vanilla_nerf_trainer.py에서 학습하고 렌더링할때 쓰는게 그냥 coarse_net인데, train.py에서 bkg 옵션을 주면 scene nerf만 학습되는 train_background() 실행되는데, 이때 coarse_net, fine_net = vanilla.build_nerf(opt) 이렇게 만들어짐. opt에 뭐 별다를게 없다면 coarse, fine을 둘다 만드는 것 같긴 한데. 둘이 파라미터가 다른가? 뭐지 왜 모델 하나인줄 알았지... 저장할때도 보면 fine이 None이 아니면 coarse_model_state_dict만 저장함. 그러면 vanilla의 build_nerf를 보면? (models/vanilla.py) 그냥 NeRF 클래스 사용. positional encoding, viewing direction도 encoding해서 넣는거. (이건 중간부터 들어가겠지) 기본적인 NeRF로 구성됨. 그럼 HumanNeRF는 어떻게 정의되어있을까?

render_smpl_nerf net, cap, posed_verts, faces, Ts, rays_per_batch=32768, samples_per_ray=64, white_bkg=True, render_can=False, geo_threshold=DEFAULT_GEO_THRESH, return_depth=False, return_mask=False, interval_comp=1.0):

render_hybrid_nerf_multi_persons: telegathering에 쓴다. bkg_model, cap, human_models, posed_verts, faces, Ts, rays_per_batch=32768, samples_per_ray=64, importance_samples_per_ray=128, white_bkg=True, geo_threshold=DEFAULT_GEO_THRESH, return_depth=False): 근데 bkg_net이든, 각각의 actor든간에 전부 똑같이 human_nerf.HumanNeRF(opt)로 불러오는데 머임? weight만 다른데서 불러오는데, 전부 각 pth파일의 'hybrid_model_state_dict'을 읽어오게 되어있음.

그럼 human_nerf.HumanNeRF()를 봐야겠네.

{coarse, fine}_bkg_net: vanilla.build_nerf()로 걍 만듦. scene nerf를 미리 학습해놨으면 'coarse_model_state_dict'와 'fine_model_state_dict'에서 파라미터를 가져옴.
offset_net도 써야한다. 여러개를 만들어서 사용. 개수는 opt.num_offset_nets로 지정 가능.
coarse_human_net: vanilla.build_nerf()로 만듦. fine부분은 비워서 안씀. 그냥 coarse_bkg랑 같은 구조라고 생각하면 됨. 근데 canonical space여야함.
그래서 생성할때, pos_min_freq=0으로 함. (canonical space에서는 그렇대... 몰라) use_viewdirs, posenc도 canonical으로 잠깐 바꿔서 HumanNeRF 모델 인스턴스화함.

Q. neuman_helper.NeuManReader.read_scene() 뭐하는거임?

결론: 암튼 weights path 무관하게 걍 전처리 데이터들 싹 불러온다 생각하면 되겠구나

1. read_captures() 얘가 리턴하는 것

raw_scene은 colmap_helper의 ColmapAsciiReader.read_scene에서 불러옴. sparse, images. 암튼 point cloud 가져옴.
각 프레임별 전처리 데이터 긁어옴. keypoints, densepose 이런 것.

2. update_near_far()로 값 업데이트 update_near_far(scene, keys, range_scale)를 저 함수 내부에서 정의함. 그리고 keys에 bkg, human 둘중 하나 넣음. 사람과 배경 scale 범위가 다른가벼.

잘 몰겠는데 암튼 이런거 스케일 조정 + 전처리 다 읽어다가 'scene' 변수 하나에 묶여서 리턴함. 이 안에 neutral인 Da-pose와 (smplx/smpl_uv.obj 읽은 것) 포즈도 읽어옴. smpls, world_verts, static_verts, Ts = cls.read_smpls(scene_dir, scene.captures, scale=scale, smpl_type=smpl_type) 요렇게 읽어와서 scene_dir에 있는 pose 읽어오는거임. smploutput{romp, refined}.pkl 둘중 하나 불러와서 프레임별 파라미터 읽는 듯? 의문: scene_dir말고, checkpoint에 있는건? humanNeRF를 학습했으면 최종 alignment 된 포즈 생기지 않나?

어쨌거나 오늘은 코드를 보고

[ ] 어떻게 코드를 수정하면 섞어서 데모가 가능할지 생각하는고임 + 미리 짜둘거임! 지금은 딴거 하고있어서 돌리진 못해.
[ ] ray 쏘는거 알면 명확해질거야. 두번 쏴서 더하는건지 뭔지....
[ ] 인퍼런스 하는거 도식화할수 있어야할거얌 어떻게 controllable한지 알아야하잖아?
[ ] 글고 tensorboard 각 visualization이 뭘 의미하는지도 알아야해

ray 쏘는 부분, scene human nerf 학습시 실제 업데이트 하는 값, loss 확인 관련. near, far 나눠가지고 뭐 ray 쏘던데... 음... 그렇군요.. 모르겠군. 대충만 볼게요

학습시 모델 output도 궁금해. 이건 걍 NeRF forward 보면 알것다만 -> [rgb, alpha] 나옴 ㅇㅇ.

학습 loss 계산? 정말로 scene, human NeRF가 독립적일까?

따로 학습한다고는 하지만 상당히 미심쩍음 뭔가 맞물려있을것 같은 기분임.

[x] 정말로 독립적으로 학습하니? 애매해... 업데이트 대상에 포함 안되는건 맞는데 HumanNeRF 결과물을 만드는데에 bkg를 불러오긴 한단말이야. 여기서도 ray를 쏴서 평가하는지 몰겠어. -> ㅇㅇ 사용함. rgb loss 계산하는데에 들어감. 파라미터 업뎃을 하진 않아도 적어도 들어가긴 한다는것.
[x] 파라미터 업데이트 대상은? SceneNeRF: coarse_net, fine_net HumanNeRF: pose(smpl), coarse_net, offset_net(optional, default O) 그리고 둘다 Adam Optimizer 사용함.

우선, 데이터는 아예 분리되어있음.

Scene NeRF: background_rays.BackgroundRayDataset
Human NeRF: human_rays.HumanRayDataset 그런데 Human때에는 NeRF 두개 다 써서 렌더링 하는거 아님? 흠?

Scene NeRF 학습?

사람 NeRF?

human_nerf_trainer.py -> train_batch() -> lossfunc() 구경 ㄱㄱ , fine_bkg_dirs, fine_bkg_z_vals, fine_bkg_out = self._eval_bkgsamples(batch, device) , human_dirs, human_z_vals, can_pts, can_dirs, human_out = self._eval_human_samples(batch, device) 이렇게 샘플을 가져오네. bkg 쓰잖아... ㅡㅡ

smpl_sym_reg: human output가지고 계산. canonical에선 좌우대칭이어야한다는 로스
color_range_reg: human output 가지고 계산. viewing direction이 달라져도 같은 sample에 대해서 rgb가 많이 변하면 안돼
smpl_shape_reg: human output 가지고 계산. smpl mesh 기준으로, 바깥은 alpha가 0. 내부는 1이 되어야한다는 로스. render_utils.raw2outputs() 실행해서 human_mask 얻음.
mask_loss: 데이터셋에 있는 마스크랑, 방금 사람 렌더링해서 얻은 human_mask랑 비슷해야함. MSE loss
fine_rgb_loss: 아니 왜 갑자기 human도 아니고 fine_bkg 뭐시기 씀? lpips loss 계산도 이 범위에서 해. 근데 또 이걸 굳이 리턴 안하는 옵션도 있음. 응???????????
sparse 뭐시기도 있는데 제외하겠음 귀찮

암튼 중간에 _eval_bkg_samples() 얘가 문제다.

coarse_bkg_samples를 구하는데, 이게 bkg영역에서의 near~far 영역의 ray를 가지고 샘플로 리턴하는 것 같다.
coarse_bkg_samples = ray_utils.ray_to_samples() 여기에서 만드는데, 이때 인자로 {bkg,human}_batch를 넘겨주는데 이 안에 near, far가 bkg와 human 각각으로 나뉘어 있음.
그렇게 얻은 샘플(pts, viewing dirs, z vals) 있으니까, pts와 viewing dir를 coarse_bkg_net에 넣어서 out을 얻음! (RGB, density겠지) 이거 렌더링을 render_utils.raw2outputs로 하는데, 이걸로 얻은 coarse_bkg_weights 사용해가지고 또 fine_bkg_net()에 넣어서 output 얻음... 그니까 결국엔 쓴다는거네 ㅡㅡ
최종적으로 저 함수를 써서 나온 fine_bkg_dirs, fine_bkg_z_vals, fine_bkg_out가 human NeRF (coarse_human) 파라미터 업뎃에 쓰였으면... 독립적이라 보긴 어렵다. 근데 rgb loss에 결국에 쓰인거네...
rgb_loss = color_range_reg + fine_rgb_loss (fine_bkg_out, human_out에서 구함. 그니깐 둘다 쓴다는거.) + lpips_loss 이렇게 3개인데, 그중에 뒤에 2개에는 들어감.
계산하는데는 모델을 썼구나 그래...

자꾸 나오는 raw2outputs

걍 논문에서 보이는 뻔한 수식임. 근데 궁금한거: num_rays 개수만큼 나오던데. 이미지로 보이려면 얘네 위치는 어디로 지정되는거임?

-> 렌더링 유틸들 보니까 raw2outputs 계산해서 얻은 rgb map을 cap.shape()에 맞게 reshape해주는구나. cap이 뭐지? caps = read_novel_caps(opt, len(raw_verts), scene)

음............... 이해가 안가.... ray들이 있는건 알겠어 근데 그걸 이미지 픽셀좌표계에 어떻게 뿌려서 rgb 이미지로 만드는지 몰겠음........ 이걸 어떻게 구현했는지 몰겠음....... ray -> 2D 픽셀좌표 계산?????

위에 ray 관련해서는 화요일 미팅때 코드레벨로 설명을 엄청 잘해주셔서 이해했어! 맘편히 원래 하려던걸 보자 ㄱㄱ

Tensorboard Output들은 뭐지?

validation_data[‘render’] 이 안에 뭐가 들어있나요? Vanilla nerf를 보자.

coarse_render, coarse_depth, fine_render, fine_depth 이렇게 4개를 보내가지고 torchvision utils에서 텐서보드에 뿌려줌
얘네는 render_utils.render_vanilla() 여기서 나오는 것이며, coarse, fine 각각을 순차적으로 돌려서 얻은것들이야.
자세한건 Vanilla nerf trainer validate()을 보도록 하자

render_utils.render_vanilla()

여기에 인자로 모델 보내버리네. coarseNet에서는 fine=None으로 넣어.
전에 얼핏 듣기로는 촬영해서 들어가는 ray의 샘플수가 다르다고 들음. 최대값을 지정하긴 하지만 그건 어디까지나 최대치이고, 실제로 포함되는건 다르다는 듯? human이랑 scene 각각의 범위를 near, far로 미리 계산해서 ray batch를 정의했음. ray_batch안에는 origin, direction, near, far가 들어간다고 생각하면 됨. 이제 이걸 쏘는거겠지
그러기 위해서 샘플로 바꿔야해. ray_utils.ray_to_sample을 거치면 pts, dirs, z_vals가 나옴.
pts, dirs를 coarse(or fine) network에 넣으면 rgb, density가 포함된 raw output을 얻을 수 있음. 이 output과 아까 구한 ray sample들을 raw2outputs()에 넣어서 rgb map, depthmap, weights 등을 구하게 되어있음.

raw2outputs()를 봐야겠구나 암튼 니가 depthmap이랑 Rgb map 구하는건 알겠는데, 어떻게 얻냐고. Depth? Density가 커지는 최초의 위치인가? 그걸 결정하는 threshold가 따로 있는거야? 코드 볼게요

dists는 앞에서 말한 z_vals (ray batch 정의할때 나오는거) 사용해서 구함. 마지막거랑 첫번째거 값 빼면 distance니까.
그러면 우리가 NeRF 논문에서 자주 보이던거랑 비슷한 그 alpha값 구하는 식을 계산할 수 있어. 1-exp(-relu(raw_density) * dist) 이렇게 구하는듯해. 이게 'raw2alpha'로, 람다식으로 정의되어있어. 이걸 거치면 raw output에서 alpha값이 나오는거야.
depth_map = torch.sum(weights * z_vals, -1) 이렇게 나오는데, z_vals는 익숙하고 이제 weights가 뭔지 알아야할텐데, 이 weights값이 방금 구한 alpha로 계산해. torch.cumprod(~~~) 이렇게 되어있는거.
아하 그러면 잘은 모르겠다만, 결국에 ray상에 샘플들에 각각 origin과의 거리가 정의되어있을거고, 근데 그중에서 밀도가 높은 부분에 물체가 있는거니까 거기에 해당하는 거리에 weight값을 빡세게 준건가? 그럼 대충 depth가 나오겠구나. 자세히 보긴 귀찮으니 이해만 설렁 하고 넘어갈래

Q. 그런데 scene validation 결과를 tensorboard visualization으로 띄우는거 보면 coarse, fine 각각으로 나뉘잖아. 결과물도 좀 다른데? 그럼 Coarse fine 둘이 파라미터가 달라? 같이 학습하는건가? 뭔가 논문 볼때는 그렇게 회자되지 않았던것 같은데??

[x] 논문 한번 확인해보기!!!!!!!!!!!!!!!

지금 대략 보기로는, 만약에 fineNet이 없다면 굳이 돌리지는 않는 것 같아. 다만 fine에서의 다른점은,

ray_to_ramples가 아니라 ray_to_importance_samples() 함수로 부터 ray에 해당하는 pts, dirs, z_vals를 다시 얻음. 여기 사용하는 weights값은 이전에 coarseNet에서 (방금) 얻은 weights야.

그리고 vanilla train의 validate()에서 render_utils.render_vanilla()를 두번 돌리는건 맞음. 근데 fineNet이 없으면 fine은 None으로 넣고, coarseNet똑같이 들어가고, 다른 파라미터는 중간에 변하지 않았기땜에 그냥 같은거 두번 돌리는 것 같은데...? 미묘하네

확인 결과? -> Appendix에 있어!

Scene: Coarse, Fine으로 나뉘는게 맞다
Human: SMPL refine 하니까 coarseNet만 사용한다
Error Correction Network와 Scene Fine NeRF는 동일한 구조로 되어있다. 이건 appendix에 나온 그림 참고하면 된다.
이렇게 sub-model을 정의하는 것은 이 논문과 동일한 방법이다. "Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R.: Nerf: Representing scenes as neural radiance fields for view synthesis. In: European conference on computer vision. pp. 405–421. Springer (2020)" 응? NeRF 원논문이잖냐

Tensorboard Output: HumanNeRF

결론: 4개는 순서대로 rgb_map, depth_map, acc_map, overlay이다.

각각 어디서 얻나요?

overlay = render_utils.overlay_smpl(overfit_cap.image, verts, faces, overfit_cap)
rgb_map, depth_map, acc_map = render_utils.render_smpl_nerf(...)

overlay_smpl()?

전처리에서 ROMP, refinement 거쳤지만 학습중에서 SMPL 파라미터는 업데이트됨. 그걸 visualization 하기 위한 함수.

걍 원본 이미지에다가 SMPL 실루엣 겹쳐서 이미지 만듦. 그럼 실루엣 어떻게 얻지?
verts, faces를 가지고 Mesh를 구해서 renderer(mesh, r, t)로 실루엣 얻음
r,t 구해야하잖음? intrinsic은 전처리때 COLMAP에서 구해놓는데, 프레임별 extrinsic은 어떻게 얻는거지? cap.~~~에 저장되어있나본데 음... 이거 나중에 볼게요

render_smpl_nerf()?

앞에서랑 비슷하겠지만 궁금한게 몇가지 있음

[ ] ray가 2개인거? scene NeRF에도 쏘는건가?
[ ] acc map은 뭐임?

sghong977 / Daily_AIML