Open zhanghongyong123456 opened 1 month ago
您好,
是的,没声音是因为没有把声音加到视频里。只有四分半是因为--use_train
所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 https://github.com/Fictionarry/ER-NeRF/issues/110#issuecomment-1895006379 所提及的解决方案,或者尝试synctalk里的头部tracking。
您好, 是的,没声音是因为没有把声音加到视频里。只有四分半是因为
--use_train
所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案,或者尝试synctalk里的头部tracking。 请问大佬
- 对于更长音频推理如何实现,通过训练更长视频可以实现吗?
- 对于优化跟踪没看明白,平滑处理中 SyncTalk训练和我们项目数据处理过程一样,没有特别,还是说要看里面的代码实现;ER-NeRF 中的--smooth_path 参数,我们项目好像没有
- 我发现这个项目会不会对人脸识别和头部识别更准确呢 https://github.com/KupynOrest/head_detector
您好, 是的,没声音是因为没有把声音加到视频里。只有四分半是因为
--use_train
所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案,或者尝试synctalk里的头部tracking。
大佬,经过不断的尝试我终于实现了第一个方法,效果有所改善,但依旧没有synctalk 的光流估计稳定。可惜的是在不断尝试移植synctalk的光流估计,训练唇形一直报错
https://github.com/Fictionarry/TalkingGaussian#inference-with-target-audio 我训练完模型,然后使用其他语音进行推理,请问结果是 、output\name\train\ours_None\renders 中的 out.mp4吗,为啥没有声音呢