X-LANCE / UniCATS-CTX-vec2wav

[AAAI 2024] Code for CTX-vec2wav in UniCATS
https://cpdu.github.io/unicats/
121 stars 16 forks source link

有没有试过hubert 或者 wav2vec 的离散化表示来代替vq-wav2vec #5

Closed yinruiqing closed 12 months ago

cpdu commented 1 year ago

总体来说,HuBERT和wav2vec的重建效果不如vq-wav2vec,参考[https://arxiv.org/abs/2309.07377]。主要原因有两个,一个是前两者的帧率比后者低一倍(frame shift 20ms vs. 10ms),另一个是聚类数量也少一些(主要是HuBERT)导致韵律信息丢失更多。具体差多少要看取的是第几层的Transformer输出,更详细的实验我们也在测试中。

yinruiqing commented 12 months ago

论文看了,很有收获