Open in-water opened 1 year ago
训练postnet y=Postnet(x)时, 其中x是语音预测的landmarks, y是人脸检测的landmarks,可视化后发现x和y在时序上并不是完全对齐的,总会有几帧的提前或延迟,而postnet的训练是1对1的, 观察到这种不对齐影响到模型效果了,有什么比较好的解决方案吗
训练postnet y=Postnet(x)时, 其中x是语音预测的landmarks, y是人脸检测的landmarks,可视化后发现x和y在时序上并不是完全对齐的,总会有几帧的提前或延迟,而postnet的训练是1对1的, 观察到这种不对齐影响到模型效果了,有什么比较好的解决方案吗