Open Gona9z opened 7 months ago
same
same problem
@itechmusic 请问可以升级处理下吗?
感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。
我们正在尝试两种解决方法:
如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。
希望作者尽快突破,感觉效果会好很多
感觉各位对MuseTalk的兴趣。这个问题我们正在研究,目前怀疑是训练数据分布导致的:人在说话中间停顿时,嘴巴不会都闭上,而是受到之前口型的影响(如维持之前口型),因此目前模型没有学会在无声音时闭嘴。
我们正在尝试两种解决方法:
- 推理时将没有声音的片段替换成闭嘴的音频,如通过音量识别。但目前还没找到合适的闭嘴音频
- 训练时加入相关数据,没有声音时闭嘴
如果有结论,我们会更新出来。如果大家有解决思路,也欢迎提出讨论。
@itechmusic 请问有没有结论呢? 可以手动将静音部分换成闭嘴的片段,现在的问题是如何生成比较好的闭嘴片段呢,将bbox_shift调整到最低值可以做到吗?
希望作者尽快突破,感觉效果会好很多
可以突破,但不能效果太好,不然就出不来了。
希望作者尽快突破,感觉效果会好很多
可以突破,但不能效果太好,不然就出不来了。
这个明白,正为此事发愁,希望尽快推出。感觉贵组织的模型是目前最好的,会一直关注。
@itechmusic 好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频
好久没更新了,静音闭嘴的功能能不能支持下?这可以解决抖动问题,还可以生成闭嘴视频
每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。
有解决办法了吗
同问,中间不说话怎么让嘴巴不动
提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问可以怎么优化吗?
我们正在优化这个问题,是需要训练来解决的
提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问大概什么时候能训练出模型?
这个有问题有更新了吗?
每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。
每个视频开始时基本上都是闭嘴帧,截取以后,在音频结束位置填充上就行了。
因为有肢体动作,如果用第一帧来填充应该不行~~
提供推理的音频,中间和结尾有一段没有声音的,但是嘴巴一直在动,请问可以怎么优化吗?