WangHelin1997 / SSR-Speech

SSR-Speech: Towards Stable, Safe and Robust Zero-shot Speech Editing and Synthesis
MIT License
45 stars 4 forks source link

cfg相关问题 #4

Closed kunsung closed 11 hours ago

kunsung commented 14 hours ago

感谢您的有价值工作和开源!我有个cfg相关的问题请教下,我在tts任务的ar模型推理时,按照您论文中的配置,γ为1.5,结果相比不做cfg的语音稍微变快了点;我看您demo页里的结果整体相比voicecraft貌似也有类似的情况。也调了调γ,像audiogen那样训练也做uncondition的训练也试了,貌似都有类似语速稍微变快的情况。不知道这块您这边有注意到类似的情况吗

WangHelin1997 commented 14 hours ago

感谢您的关注!是的,我们在实验过程也发现了这个问题,主要是因为他减少了重复token以及空白token的概率。我们目前在改进cfg的模式,可以期待一下后续的工作。

kunsung commented 11 hours ago

谢谢,期待续作!