yangdongchao / AcademiCodec

AcademiCodec: An Open Source Audio Codec Model for Academic Research
574 stars 80 forks source link

请问如何理解 codes dimension #29

Open jasonppy opened 1 year ago

jasonppy commented 1 year ago

感谢开源精彩的工作!

我想确认一下我对输出的 codes 的 ordering 的理解: VQVAE encode 函数的输出形状是 [B, T, 4]。 假设 B=1, T=2,codes 是 [[a,b,c,d] [e,f,g,h]]

判断: a 是 T=1 的feature 的前一半 第一次quantize 得到的code, b 是 T=1 的feature 的后一半 第一次 quantize 得到的code, c 是 quantize a 的 residual 得到的 code ...

h 是 quantize f 的 residual 得到的 code 请问这样的判断对吗?

谢谢 Puyuan