X-LANCE / UniCATS-CTX-txt2vec

[AAAI 2024] CTX-txt2vec, the acoustic model in UniCATS
https://cpdu.github.io/unicats
57 stars 8 forks source link

请问一下,在只有音频没有对应的文本情况下,可以根据音频的音色和韵律风格实现类似speech continue的操作吗? #3

Open zhiqiuiyiye opened 8 months ago

zhiqiuiyiye commented 8 months ago

假如只有说话人的音频作为参考音频,可以实现zero-shot的功能吗

cantabile-kwok commented 8 months ago

这个任务跟这篇文章的设定有点不同,主要是目前CTX-txt2vec在训练中是音频和文本完全对应的,所以暂时还做不到只给音频、不给文本地续写;这在训练模型时如果单独切一段不带文本的音频prompt作为context,那么有可能可以做到,但是我们还没有尝试过

zhiqiuiyiye commented 8 months ago

好的,感谢解答,不知道大佬未来有没有尝试这方面工作的打算呢

cantabile-kwok commented 8 months ago

我们有考虑过,不过目前没有好的在进行中的想法哈哈

zhiqiuiyiye commented 8 months ago

好的好的,我们这边也一直在搞这方面的工作,期望未来能够多多交流,感谢!