Open zhiqiuiyiye opened 1 year ago
这个任务跟这篇文章的设定有点不同,主要是目前CTX-txt2vec在训练中是音频和文本完全对应的,所以暂时还做不到只给音频、不给文本地续写;这在训练模型时如果单独切一段不带文本的音频prompt作为context,那么有可能可以做到,但是我们还没有尝试过
好的,感谢解答,不知道大佬未来有没有尝试这方面工作的打算呢
我们有考虑过,不过目前没有好的在进行中的想法哈哈
好的好的,我们这边也一直在搞这方面的工作,期望未来能够多多交流,感谢!
假如只有说话人的音频作为参考音频,可以实现zero-shot的功能吗