请问一下，在只有音频没有对应的文本情况下，可以根据音频的音色和韵律风格实现类似speech continue的操作吗？

X-LANCE / UniCATS-CTX-txt2vec

[AAAI 2024] CTX-txt2vec, the acoustic model in UniCATS

https://cpdu.github.io/unicats

63 stars 8 forks source link

Open zhiqiuiyiye opened 1 year ago

zhiqiuiyiye commented 1 year ago

假如只有说话人的音频作为参考音频，可以实现zero-shot的功能吗

cantabile-kwok commented 1 year ago

这个任务跟这篇文章的设定有点不同，主要是目前CTX-txt2vec在训练中是音频和文本完全对应的，所以暂时还做不到只给音频、不给文本地续写；这在训练模型时如果单独切一段不带文本的音频prompt作为context，那么有可能可以做到，但是我们还没有尝试过

zhiqiuiyiye commented 1 year ago

好的，感谢解答，不知道大佬未来有没有尝试这方面工作的打算呢

cantabile-kwok commented 1 year ago

我们有考虑过，不过目前没有好的在进行中的想法哈哈

zhiqiuiyiye commented 1 year ago

好的好的，我们这边也一直在搞这方面的工作，期望未来能够多多交流，感谢！