Closed Ash-one closed 4 months ago
您好,非常喜欢这篇一统模态的工作!有两个小问题希望能够解答:
首先论文中提到resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.,这和表格1中关于Music的参数似乎并不一致?
resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.
此外,在论文中提到针对音乐的部分使用包括歌词在内的元数据,但是在实例中没有展示带有歌词的音频,这是出于什么原因?(顺便示例中的音乐和久美子反差太大了哈哈😂)
hi你好
您好,非常喜欢这篇一统模态的工作!有两个小问题希望能够解答:
首先论文中提到
resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.
,这和表格1中关于Music的参数似乎并不一致?此外,在论文中提到针对音乐的部分使用包括歌词在内的元数据,但是在实例中没有展示带有歌词的音频,这是出于什么原因?(顺便示例中的音乐和久美子反差太大了哈哈😂)