자세 추출부 모델링

Uijeong97 commented 3 years ago

GOAL

골프 자세 분석 파이프라인의 자세 추출부의 모델링을 수행한다.
3D HPE 기술 이용하여 모델링 고도화 수행

Requirements

COCO Format keypoints - 17개 관절로 구성
12MB + alpha 용량의 모델
파라미터 수 확인 - 기존 모델과의 비교 수행
tflite 호환성 위해 Tensorflow 사용

How to make it?

Dataset 리서치
HPE 기술 리서치

Architecture

Uijeong97 commented 3 years ago

HPE 기술 리서치

Requirements

파라미터 수 확인
코드 유무 확인
Multi-person일 필요 없음
Monocular view - 모바일 카메라가 single view임을 고려
Multi-View 중 single view 일 때의 MPJPE도 고려

Research

Monocular view

PoseNet3D, ICCV 2019
- PoseNet of "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image", ICCV 2019
  2. MobileHumanPose, CVPRW 2021

paper, CVPRW 2021
Goal
- Revisit a pose estimation architecture from a viewpoint of both efficiency and accuracy
Architecture
- MobileNetV2 backbone
- parametic activation function
- PReLU 사용
- skip concatenation inspired by U-Net
- 약간의 컴퓨팅 파워로 정확도 향상에 기여
- residual concat과 달리 encoder와 decoder 사이즈 같음

Monocular View 중 파라미터가 13M 미만인 모델이 없고, Table 8의 비교 결과, 파라미터는 10배이상 차이나지만, MPJPE는 51.4로 낮지 않다고 판단됨.(약 5cm 오차)
다만 특정 데이터에 적합된 결과일 수 있으므로 골프 데이터로 테스트 필요

Multi-View

리서치 결과 멀티 뷰에서 가장 작은 백본은 ResNet50으로 파라미터는 23M 정도임. Monocular View에서 선택한 MHP 모델을 multi-view 학습 기법을 적용해서 튜닝 할 수 있다면 정확도 향상이 기대됨.

1. TesseTrack, CVPR 2021

* [paper, CVPR 2021](https://openaccess.thecvf.com/content/CVPR2021/papers/Reddy_TesseTrack_End-to-End_Learnable_Multi-Person_Articulated_3D_Pose_Tracking_CVPR_2021_paper.pdf) * Goal * person tracking and pose estimation * Human36M dataset * Multi-View(5 views) MPJPE 18.7(mm) * Monocular MPJPE 44.6(mm) * 코드 없음 * Insights & Limitations * Pose 추출 후 temporal 정보를 반영하는 레이어를 함께 학습하는 방법으로 비디오에서의 정확도를 높일 수 있음 * MultiView에서는 효과적이나 single view에서는 다른 모델과 큰 차이 없음 * **Architecture** * 스크린샷 2021-06-24 오후 12 12 43

* Person Detection Network(PDN) * Backbone - HRNet * Multi Views를 Shared HRNet에 각각 추론한 후 R 추출, 모든 뷰 R aggregate > * R x W x H x D(WHD는 카메라 공간 크기) > * NMS 수행, heatmap 추출 > loss는 centernet에서의 로스와 유사 * Spatio-Temperal Descriptors and Tracking * Tesseract Convolutions - 4d conv * Attention Aggregation - GNN, contextual cues를 통합 * Temperal Matching Layer - Score Matrix(Confidence), N features x M persons matrix 구성 * Pose estimation * Spatio-temporal descriptors merging - 2T - 1 만큼 머지 * Terract deconvolution

2. Epipolar Transfer, CVPR 2020

* [paper, CVPR 2020](https://arxiv.org/pdf/2005.04551v1.pdf) * Goal * person tracking and pose estimation * Human36M dataset * Multi-View(2 more) MPJPE 26.9(mm) - ResNet50 * Multi-View(2 more) MPJPE 19(mm) - ResNet152 * Monocular MPJPE 33.1(mm) - Resnet50 * Insights & Limitations * single view에서 에러율이 굉장히 낮고, resnet50 backbone을 사용하는 데도 에러율이 낮음(single view에서 SOTA) * precise geometric camera calibration에 의존적이기 때문에, 캘리브레이션이 잘 안되면 epipolar line이 부정확하다고 함. * human36m 데이터에만 적합된 모델일 수 있음(골프 데이터로 테스트 필요) * **Architecture** * 스크린샷 2021-06-24 오후 2 55 42

3. Learnable Triangulation of Human Pose, ICCV 2019

* [paper, ICCV 2019](https://openaccess.thecvf.com/content_ICCV_2019/papers/Iskakov_Learnable_Triangulation_of_Human_Pose_ICCV_2019_paper.pdf) * Goal * 3d geometric access, 삼각측량법 * Human36M dataset * Multi-View(2 more) MPJPE 20.5(mm) * Monocular MPJPE 49.9(mm) * Insights & Limitations * multi-view에서만 효과적 * multi-view의 2d features를 기하학적 방식인 triangulation 방법을 통해 aggregate 하는 방식 * **Architecture** * 스크린샷 2021-06-24 오후 3 21 41

4. Cross View Fusion for 3D Human Pose Estimation, ICCV 2019

* [paper, ICCV 2019](https://openaccess.thecvf.com/content_ICCV_2019/papers/Qiu_Cross_View_Fusion_for_3D_Human_Pose_Estimation_ICCV_2019_paper.pdf) * Goal * Estimate relative 3D poses from monocular 2D images * Human36M dataset * Multi-View MPJPE 26.21(mm) * Monocular MPJPE 43(mm) - ResNet152 * Insights & Limitations * multi-view의 2d features를 fusion하는 방법 * **Architecture** * 스크린샷 2021-06-24 오후 3 35 46

* RPSM model - 적은 computation cost를 추가해서 multi-view 2D poses로부터 3D pose 추정 시 에러율 낮춤 * multiview feature fusion approach - 2D Accuracy 높임

Uijeong97 commented 3 years ago

데이터셋 리서치

Requirements

MSCOCO Format - 17개 관절로 구성(혹은 포함)

Research

3D data

레퍼런스로 삼고있는 두 모델이 모두 Multi dataset으로 다양한 3D data를 사용함. annotation은 MS COCO Format으로 맞춰 있기 때문에 데이터들을 받아서 실험 진행. 다만 GPU자원이 한정되어있기 때문에 용량과 학습 시간 확인 필요.

Human36M
- 3600만장
- 4개의 카메라, 11명의 actors가 17개의 시나리오로 촬영한 비디오, 3차원 사람 관절 데이터
- 연구논문이 가장 많음
MuCo
- Monocular RGB camera의 3차원 관절 데이터(multi-person)
- 14 cameras, 8 subjects
MuPoTS
- MuCo의 test set, 8000 frame
- 3 subjects, 여러방면의 카메라

2D data

레퍼런스로 삼고있는 두 모델이 모두 Multi dataset으로 2D data도 학습으로 사용함. 이론적으로 z축 없이 추가학습할 경우 강건성(robustness)를 높인다고 함. 따라서 두 모델에서 적용한 방법에 따라 아래 데이터를 추가로 학습하고자 함.

https://github.com/SangbumChoi/MobileHumanPose/issues/2#issuecomment-870532128

MPII

25K images, 2차원 사람 관절 데이터

40K people, 410 human activities

HoBeom commented 3 years ago

골프 포즈 데이터셋입니다~ https://aihub.or.kr/aidata/34117

Uijeong97 commented 3 years ago

@HoBeom 확인해보겠습니다. 감사합니다~

Uijeong97 commented 3 years ago

tflite 호환성 조사

TensorFlow Lite는 모든 TensorFlow 모델에 고성능 기기 내 추론을 제공할 계획입니다. 그러나 TensorFlow Lite 인터프리터는 현재 기기 내 사용에 최적화된 TensorFlow 연산자 하위 집합을 제한적으로 지원합니다. 이에 따라 일부 모델은 TensorFlow Lite와 함께 작동하는 데 추가 단계가 필요합니다.

tf 연산자 중 tflite로 변환 가능한 연산자를 사용하여 작성해야 한다.

연산자 호환성
- https://www.tensorflow.org/lite/guide/ops_compatibility

CSID-DGU / 2021-1-CECD3-EverySports-8