X-LANCE / UniCATS-CTX-txt2vec

[AAAI 2024] CTX-txt2vec, the acoustic model in UniCATS
https://cpdu.github.io/unicats
60 stars 8 forks source link

如何将多组token转换成单一token #9

Open fanpengustc opened 8 months ago

fanpengustc commented 8 months ago

看了你们其他的文章,有介绍将DAC提的token用来训unicats ,但是dac这样的token有8组每组1024个,但是unicat输入的事单一一组token,这个怎么转换呢?或者是有新的其他架构?

cantabile-kwok commented 8 months ago

您好,请问具体指的是哪篇文章呢,一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型,只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。

fanpengustc commented 8 months ago

您好,请问具体指的是哪篇文章呢,一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型,只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。

TOWARDS UNIVERSAL SPEECH DISCRETE TOKENS: A CASE STUDY FOR ASR AND TTS 这篇文章,里面有介绍dac等多组token

cantabile-kwok commented 8 months ago

这篇文章里用到的Encodec和DAC主要是直接拿来重构,跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的,所以其实没有用unicats来直接生成这样的多组token

fanpengustc commented 8 months ago

这篇文章里用到的Encodec和DAC主要是直接拿来重构,跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的,所以其实没有用unicats来直接生成这样的多组token

谢谢解答