请问大佬推理目标语音的结果在哪里？

Fictionarry / TalkingGaussian

[ECCV'24] TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting

https://fictionarry.github.io/TalkingGaussian/

213 stars 28 forks source link

请问大佬推理目标语音的结果在哪里？ #29

Open zhanghongyong123456 opened 1 month ago

zhanghongyong123456 commented 1 month ago

https://github.com/Fictionarry/TalkingGaussian#inference-with-target-audio 我训练完模型，然后使用其他语音进行推理，请问结果是、output\name\train\ours_None\renders 中的 out.mp4吗，为啥没有声音呢

使用五分的声音，推理后发现生成的视频只有4分半，所以语音尾部会对不上
如何避免头剧烈晃动，我发现晃动的很厉害

Fictionarry commented 1 month ago

您好，是的，没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半，短于5分钟。头部晃动主要是预处理时tracking部分的原因，头部姿态估计不够准确，可以尝试 https://github.com/Fictionarry/ER-NeRF/issues/110#issuecomment-1895006379 所提及的解决方案，或者尝试synctalk里的头部tracking。

zhanghongyong123456 commented 1 month ago

您好，是的，没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半，短于5分钟。头部晃动主要是预处理时tracking部分的原因，头部姿态估计不够准确，可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案，或者尝试synctalk里的头部tracking。请问大佬

对于更长音频推理如何实现，通过训练更长视频可以实现吗？

对于优化跟踪没看明白，平滑处理中 SyncTalk训练和我们项目数据处理过程一样，没有特别，还是说要看里面的代码实现；ER-NeRF 中的--smooth_path 参数，我们项目好像没有

我发现这个项目会不会对人脸识别和头部识别更准确呢 https://github.com/KupynOrest/head_detector

xiaoqidaov2 commented 1 month ago

您好，是的，没声音是因为没有把声音加到视频里。只有四分半是因为--use_train所指定使用的素材只有四分半，短于5分钟。头部晃动主要是预处理时tracking部分的原因，头部姿态估计不够准确，可以尝试 Fictionarry/ER-NeRF#110 (comment) 所提及的解决方案，或者尝试synctalk里的头部tracking。

大佬，经过不断的尝试我终于实现了第一个方法，效果有所改善，但依旧没有synctalk 的光流估计稳定。可惜的是在不断尝试移植synctalk的光流估计，训练唇形一直报错