如何将多组token转换成单一token

X-LANCE / UniCATS-CTX-txt2vec

[AAAI 2024] CTX-txt2vec, the acoustic model in UniCATS

https://cpdu.github.io/unicats

63 stars 8 forks source link

Open fanpengustc opened 10 months ago

fanpengustc commented 10 months ago

看了你们其他的文章，有介绍将DAC提的token用来训unicats ，但是dac这样的token有8组每组1024个，但是unicat输入的事单一一组token，这个怎么转换呢？或者是有新的其他架构？

cantabile-kwok commented 10 months ago

您好，请问具体指的是哪篇文章呢，一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型，只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。

fanpengustc commented 10 months ago

您好，请问具体指的是哪篇文章呢，一下子有点想不起来了orz。不过如果硬要训的话也可以像valle那样带一个NAR模型，只用unicats去建模第一层codec。但我们自己的实验里面还没有做过这种。

TOWARDS UNIVERSAL SPEECH DISCRETE TOKENS: A CASE STUDY FOR ASR AND TTS 这篇文章，里面有介绍dac等多组token

cantabile-kwok commented 10 months ago

这篇文章里用到的Encodec和DAC主要是直接拿来重构，跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的，所以其实没有用unicats来直接生成这样的多组token

fanpengustc commented 10 months ago

这篇文章里用到的Encodec和DAC主要是直接拿来重构，跟从vq-wav2vec一类的semantic token+CTX-vec2wav重构做比较的，所以其实没有用unicats来直接生成这样的多组token

谢谢解答