Fictionarry / TalkingGaussian

[ECCV'24] TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
https://fictionarry.github.io/TalkingGaussian/
213 stars 28 forks source link

请问大佬推理目标语音的结果在哪里? #29

Open zhanghongyong123456 opened 1 month ago

zhanghongyong123456 commented 1 month ago

https://github.com/Fictionarry/TalkingGaussian#inference-with-target-audio 我训练完模型,然后使用其他语音进行推理,请问结果是 、output\name\train\ours_None\renders 中的 out.mp4吗,为啥没有声音呢

  1. 使用五分的声音,推理后发现生成的视频只有4分半,所以语音尾部会对不上
  2. 如何避免头剧烈晃动,我发现晃动的很厉害
Fictionarry commented 1 month ago

您好, 是的,没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 https://github.com/Fictionarry/ER-NeRF/issues/110#issuecomment-1895006379 所提及的解决方案,或者尝试synctalk里的头部tracking。

zhanghongyong123456 commented 1 month ago

您好, 是的,没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案,或者尝试synctalk里的头部tracking。 请问大佬

  1. 对于更长音频推理如何实现,通过训练更长视频可以实现吗?
  2. 对于优化跟踪没看明白,平滑处理中 SyncTalk训练和我们项目数据处理过程一样,没有特别,还是说要看里面的代码实现;ER-NeRF 中的--smooth_path 参数,我们项目好像没有
  3. 我发现这个项目会不会对人脸识别和头部识别更准确呢 https://github.com/KupynOrest/head_detector
xiaoqidaov2 commented 1 month ago

您好, 是的,没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半,短于5分钟。头部晃动主要是预处理时tracking部分的原因,头部姿态估计不够准确,可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案,或者尝试synctalk里的头部tracking。

大佬,经过不断的尝试我终于实现了第一个方法,效果有所改善,但依旧没有synctalk 的光流估计稳定。可惜的是在不断尝试移植synctalk的光流估计,训练唇形一直报错