cfg相关问题 - Githubissues

WangHelin1997 / SSR-Speech

SSR-Speech: Towards Stable, Safe and Robust Zero-shot Speech Editing and Synthesis

MIT License

45 stars 4 forks source link

cfg相关问题 #4

Closed kunsung closed 11 hours ago

kunsung commented 14 hours ago

感谢您的有价值工作和开源！我有个cfg相关的问题请教下，我在tts任务的ar模型推理时，按照您论文中的配置，γ为1.5，结果相比不做cfg的语音稍微变快了点；我看您demo页里的结果整体相比voicecraft貌似也有类似的情况。也调了调γ，像audiogen那样训练也做uncondition的训练也试了，貌似都有类似语速稍微变快的情况。不知道这块您这边有注意到类似的情况吗

WangHelin1997 commented 14 hours ago

感谢您的关注！是的，我们在实验过程也发现了这个问题，主要是因为他减少了重复token以及空白token的概率。我们目前在改进cfg的模式，可以期待一下后续的工作。

kunsung commented 11 hours ago

谢谢，期待续作！