Open jishengpeng opened 1 month ago
尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。
尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。
在Large版本中,我们目前并没有放出wavtokenizer强有力支持music和audio的版本,也就是75版本仅仅支持speech,不支持music和audio。 因为我们发现统一训练music,speech,audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech,music,audio三个模型),我们也在考虑这种一种范式(同时music和audio的采样率也不会设置成24k)/或者我们正在设计一种机制在重建范式下更好地统一music,audio和speech。
尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。
在Large版本中,我们目前并没有放出wavtokenizer强有力支持music和audio的版本,也就是75版本仅仅支持speech,不支持music和audio。 因为我们发现统一训练music,speech,audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech,music,audio三个模型),我们也在考虑这种一种范式(同时music和audio的采样率也不会设置成24k)/或者我们正在设计一种机制在重建范式下更好地统一music,audio和speech。
hello,之前仔细读了您的论文,对于您说的这个问题,我有一个想法,有没有可能是4K的codebook不足以表征music,speech,audio这三种形式,如果在4K的基础上,再扩充4K code,有没有可能在保持speech建模能力的基础上,把music的能力也融入进来呢?
请教下,release large model中训练数据中中文数据大概是多少?
Paper and WavTokenizer-Large.