关于论文中音乐tokenize和音乐生成示例的问题

您好，非常喜欢这篇一统模态的工作！有两个小问题希望能够解答：

首先论文中提到resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.，这和表格1中关于Music的参数似乎并不一致？

此外，在论文中提到针对音乐的部分使用包括歌词在内的元数据，但是在实例中没有展示带有歌词的音频，这是出于什么原因？（顺便示例中的音乐和久美子反差太大了哈哈😂）

OpenMOSS / AnyGPT

关于论文中音乐tokenize和音乐生成示例的问题 #21