postnet训练时语音预测的输入和人脸检测出的label 时序上没有对齐

yerfor / GeneFace

GeneFace: Generalized and High-Fidelity 3D Talking Face Synthesis; ICLR 2023; Official code

MIT License

2.52k stars 294 forks source link

Open in-water opened 1 year ago

in-water commented 1 year ago

训练postnet y=Postnet(x)时，其中x是语音预测的landmarks, y是人脸检测的landmarks，可视化后发现x和y在时序上并不是完全对齐的，总会有几帧的提前或延迟，而postnet的训练是1对1的, 观察到这种不对齐影响到模型效果了，有什么比较好的解决方案吗