YoungSeng / QPGesture

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation (CVPR 2023 Highlight)
82 stars 7 forks source link

一些问题 #9

Closed YoungSeng closed 1 year ago

YoungSeng commented 1 year ago

看论文中您使用了BEAT数据集所有 Speaker的上半身的数据来训练,motion的表示是每个关节的3D 位置。请问不同人的骨架的差异是没有显式样的引入网络吗?没有使用speaker ID的one hot vector的表示,可以做到不同人的数据在预测时候的差异化嘛?会学到一个平均的结果吗?还是不同人的数据在输入网络前,会先retarget到统一的一个骨架?您觉得论文做到的用一个网络学到30个speaker的gesture,的关键是什么?

YoungSeng commented 1 year ago
  1. motion是用旋转矩阵表示的;见论文中Implementation Details. 为了计算Phase,这时motion是用角加速度表示的
  2. 论文中只尝试了两个说话人,且每个说话人单独一个database,没有考虑speaker ID
  3. “retarget到统一的一个骨架?”是什么意思,BEAT应该都是同一套骨架

image