We update WavTokenizer paper in Arxiv and release WavTokenizer-Large checkpoint in Huggingface on 2024.10.22

jishengpeng / WavTokenizer

SOTA discrete acoustic codec models with 40 tokens per second for audio language modeling

MIT License

830 stars 46 forks source link

尝试了large 模型的重构效果（75和40 两个版本都试了），发现音乐、声音类依然效果比较差，这个符合你们的测试结果么？不知道是不是我使用有误。

在Large版本中，我们目前并没有放出wavtokenizer强有力支持music和audio的版本，也就是75版本仅仅支持speech，不支持music和audio。因为我们发现统一训练music，speech，audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech，music，audio三个模型)，我们也在考虑这种一种范式（同时music和audio的采样率也不会设置成24k）/或者我们正在设计一种机制在重建范式下更好地统一music，audio和speech。

尝试了large 模型的重构效果（75和40 两个版本都试了），发现音乐、声音类依然效果比较差，这个符合你们的测试结果么？不知道是不是我使用有误。

在Large版本中，我们目前并没有放出wavtokenizer强有力支持music和audio的版本，也就是75版本仅仅支持speech，不支持music和audio。因为我们发现统一训练music，speech，audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech，music，audio三个模型)，我们也在考虑这种一种范式（同时music和audio的采样率也不会设置成24k）/或者我们正在设计一种机制在重建范式下更好地统一music，audio和speech。

hello，之前仔细读了您的论文，对于您说的这个问题，我有一个想法，有没有可能是4K的codebook不足以表征music，speech，audio这三种形式，如果在4K的基础上，再扩充4K code，有没有可能在保持speech建模能力的基础上，把music的能力也融入进来呢？

jishengpeng / WavTokenizer

We update WavTokenizer paper in Arxiv and release WavTokenizer-Large checkpoint in Huggingface on 2024.10.22 #45