OpenMOSS / AnyGPT

Code for "AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling"
779 stars 61 forks source link

关于论文中音乐tokenize和音乐生成示例的问题 #21

Closed Ash-one closed 4 months ago

Ash-one commented 6 months ago

您好,非常喜欢这篇一统模态的工作!有两个小问题希望能够解答:

首先论文中提到resulting in a combined music vocabulary size of 8192. We encode 5 seconds music into 250 latent frames, ultimately generating a 250 × 4 codes matrix.,这和表格1中关于Music的参数似乎并不一致?

此外,在论文中提到针对音乐的部分使用包括歌词在内的元数据,但是在实例中没有展示带有歌词的音频,这是出于什么原因?(顺便示例中的音乐和久美子反差太大了哈哈😂)

JunZhan2000 commented 5 months ago

hi你好

  1. 表格1里写错了,应该是8192,感谢纠正
  2. 我们的尝试中,用带人声的音乐数据训练,也可以生成非人声的音乐,但是目前的做法在生成歌声上效果不好