Open fanpengustc opened 10 months ago
您好,请问具体指的是哪篇文章呢,一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型,只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。
您好,请问具体指的是哪篇文章呢,一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型,只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。
TOWARDS UNIVERSAL SPEECH DISCRETE TOKENS: A CASE STUDY FOR ASR AND TTS 这篇文章,里面有介绍dac等多组token
这篇文章里用到的Encodec和DAC主要是直接拿来重构,跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的,所以其实没有用unicats来直接生成这样的多组token
这篇文章里用到的Encodec和DAC主要是直接拿来重构,跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的,所以其实没有用unicats来直接生成这样的多组token
谢谢解答
看了你们其他的文章,有介绍将DAC提的token用来训unicats ,但是dac这样的token有8组每组1024个,但是unicat输入的事单一一组token,这个怎么转换呢?或者是有新的其他架构?