Closed yinruiqing closed 12 months ago
总体来说,HuBERT和wav2vec的重建效果不如vq-wav2vec,参考[https://arxiv.org/abs/2309.07377]。主要原因有两个,一个是前两者的帧率比后者低一倍(frame shift 20ms vs. 10ms),另一个是聚类数量也少一些(主要是HuBERT)导致韵律信息丢失更多。具体差多少要看取的是第几层的Transformer输出,更详细的实验我们也在测试中。
论文看了,很有收获
总体来说,HuBERT和wav2vec的重建效果不如vq-wav2vec,参考[https://arxiv.org/abs/2309.07377]。主要原因有两个,一个是前两者的帧率比后者低一倍(frame shift 20ms vs. 10ms),另一个是聚类数量也少一些(主要是HuBERT)导致韵律信息丢失更多。具体差多少要看取的是第几层的Transformer输出,更详细的实验我们也在测试中。