CSID-DGU / 2021-1-CECD3-EverySports-8

2021-1 컴퓨터공학종합설계1 3분반 EverySports
GNU General Public License v2.0
1 stars 0 forks source link

자세 추출부 모델링 #1

Open Uijeong97 opened 3 years ago

Uijeong97 commented 3 years ago

GOAL

Requirements

How to make it?

Architecture

스크린샷 2021-06-24 오전 11 29 12
Uijeong97 commented 3 years ago

HPE 기술 리서치

Requirements

Research

Monocular view

  1. PoseNet3D, ICCV 2019
    • PoseNet of "Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image", ICCV 2019
      2. MobileHumanPose, CVPRW 2021

스크린샷 2021-06-24 오후 5 44 27

Multi-View

리서치 결과 멀티 뷰에서 가장 작은 백본은 ResNet50으로 파라미터는 23M 정도임. Monocular View에서 선택한 MHP 모델을 multi-view 학습 기법을 적용해서 튜닝 할 수 있다면 정확도 향상이 기대됨.

1. TesseTrack, CVPR 2021 * [paper, CVPR 2021](https://openaccess.thecvf.com/content/CVPR2021/papers/Reddy_TesseTrack_End-to-End_Learnable_Multi-Person_Articulated_3D_Pose_Tracking_CVPR_2021_paper.pdf) * Goal * person tracking and pose estimation * Human36M dataset * Multi-View(5 views) MPJPE 18.7(mm) * Monocular MPJPE 44.6(mm) * 코드 없음 * Insights & Limitations * Pose 추출 후 temporal 정보를 반영하는 레이어를 함께 학습하는 방법으로 비디오에서의 정확도를 높일 수 있음 * MultiView에서는 효과적이나 single view에서는 다른 모델과 큰 차이 없음 * **Architecture** * 스크린샷 2021-06-24 오후 12 12 43 * Person Detection Network(PDN) * Backbone - HRNet * Multi Views를 Shared HRNet에 각각 추론한 후 R 추출, 모든 뷰 R aggregate > * R x W x H x D(WHD는 카메라 공간 크기) > * NMS 수행, heatmap 추출 > loss는 centernet에서의 로스와 유사 * Spatio-Temperal Descriptors and Tracking * Tesseract Convolutions - 4d conv * Attention Aggregation - GNN, contextual cues를 통합 * Temperal Matching Layer - Score Matrix(Confidence), N features x M persons matrix 구성 * Pose estimation * Spatio-temporal descriptors merging - 2T - 1 만큼 머지 * Terract deconvolution
2. Epipolar Transfer, CVPR 2020 * [paper, CVPR 2020](https://arxiv.org/pdf/2005.04551v1.pdf) * Goal * person tracking and pose estimation * Human36M dataset * Multi-View(2 more) MPJPE 26.9(mm) - ResNet50 * Multi-View(2 more) MPJPE 19(mm) - ResNet152 * Monocular MPJPE 33.1(mm) - Resnet50 * Insights & Limitations * single view에서 에러율이 굉장히 낮고, resnet50 backbone을 사용하는 데도 에러율이 낮음(single view에서 SOTA) * precise geometric camera calibration에 의존적이기 때문에, 캘리브레이션이 잘 안되면 epipolar line이 부정확하다고 함. * human36m 데이터에만 적합된 모델일 수 있음(골프 데이터로 테스트 필요) * **Architecture** * 스크린샷 2021-06-24 오후 2 55 42
3. Learnable Triangulation of Human Pose, ICCV 2019 * [paper, ICCV 2019](https://openaccess.thecvf.com/content_ICCV_2019/papers/Iskakov_Learnable_Triangulation_of_Human_Pose_ICCV_2019_paper.pdf) * Goal * 3d geometric access, 삼각측량법 * Human36M dataset * Multi-View(2 more) MPJPE 20.5(mm) * Monocular MPJPE 49.9(mm) * Insights & Limitations * multi-view에서만 효과적 * multi-view의 2d features를 기하학적 방식인 triangulation 방법을 통해 aggregate 하는 방식 * **Architecture** * 스크린샷 2021-06-24 오후 3 21 41
4. Cross View Fusion for 3D Human Pose Estimation, ICCV 2019 * [paper, ICCV 2019](https://openaccess.thecvf.com/content_ICCV_2019/papers/Qiu_Cross_View_Fusion_for_3D_Human_Pose_Estimation_ICCV_2019_paper.pdf) * Goal * Estimate relative 3D poses from monocular 2D images * Human36M dataset * Multi-View MPJPE 26.21(mm) * Monocular MPJPE 43(mm) - ResNet152 * Insights & Limitations * multi-view의 2d features를 fusion하는 방법 * **Architecture** * 스크린샷 2021-06-24 오후 3 35 46 * RPSM model - 적은 computation cost를 추가해서 multi-view 2D poses로부터 3D pose 추정 시 에러율 낮춤 * multiview feature fusion approach - 2D Accuracy 높임
Uijeong97 commented 3 years ago

데이터셋 리서치

Requirements

Research

3D data

레퍼런스로 삼고있는 두 모델이 모두 Multi dataset으로 다양한 3D data를 사용함. annotation은 MS COCO Format으로 맞춰 있기 때문에 데이터들을 받아서 실험 진행. 다만 GPU자원이 한정되어있기 때문에 용량과 학습 시간 확인 필요.

  1. Human36M
    • 3600만장
    • 4개의 카메라, 11명의 actors가 17개의 시나리오로 촬영한 비디오, 3차원 사람 관절 데이터
    • 연구논문이 가장 많음
  2. MuCo
    • Monocular RGB camera의 3차원 관절 데이터(multi-person)
    • 14 cameras, 8 subjects
  3. MuPoTS
    • MuCo의 test set, 8000 frame
    • 3 subjects, 여러방면의 카메라

2D data

레퍼런스로 삼고있는 두 모델이 모두 Multi dataset으로 2D data도 학습으로 사용함. 이론적으로 z축 없이 추가학습할 경우 강건성(robustness)를 높인다고 함. 따라서 두 모델에서 적용한 방법에 따라 아래 데이터를 추가로 학습하고자 함.

https://github.com/SangbumChoi/MobileHumanPose/issues/2#issuecomment-870532128

  1. MPII
    • 25K images, 2차원 사람 관절 데이터
    • 40K people, 410 human activities
HoBeom commented 3 years ago

골프 포즈 데이터셋입니다~ https://aihub.or.kr/aidata/34117

Uijeong97 commented 3 years ago

@HoBeom 확인해보겠습니다. 감사합니다~

Uijeong97 commented 3 years ago

tflite 호환성 조사

TensorFlow Lite는 모든 TensorFlow 모델에 고성능 기기 내 추론을 제공할 계획입니다. 그러나 TensorFlow Lite 인터프리터는 현재 기기 내 사용에 최적화된 TensorFlow 연산자 하위 집합을 제한적으로 지원합니다. 이에 따라 일부 모델은 TensorFlow Lite와 함께 작동하는 데 추가 단계가 필요합니다.

tf 연산자 중 tflite로 변환 가능한 연산자를 사용하여 작성해야 한다.