X-LANCE / UniCATS-CTX-vec2wav

[AAAI 2024] Code for CTX-vec2wav in UniCATS
https://cpdu.github.io/unicats/
115 stars 16 forks source link

关于 vq_codebook #4

Open hopingZ opened 10 months ago

hopingZ commented 10 months ago

您好,请问 vq_codebook 也是来自 vq-wav2vec-kmeans 吗?注意到代码中加载的是 (2, 320, 256),但是 vq-wav2vec-kmeans 中量化器的 embedding 的 shape 是 (320, 1, 256),两个 codebook 是一样的吗?

cantabile-kwok commented 10 months ago

确实来自于vq-wav2vec-kmeans,我们用的是两组quantizer的版本,从fairseq中找的, 在他们的readme中也可以看出来应该是2组。我们提供了codebook.npy文件(在这里),shape应该和代码中加载的是一样的~

cpdu commented 10 months ago

您好,kmeans的vq-wav2vec存在两组codebook参数绑定的情况,所以看似两组其实是一组,一回事的。