Closed shenck0 closed 1 year ago
你好,请使用微力保持更新。 压缩包变更可以看github的变更记录。
我们是这么考虑的: 1.我们数据集定位于预训练数据,国内未来能继续研究预训练的团队会比较少,这些团队建议使用微力来完整的进行数据同步,而且一次部署,一劳永逸。未来所有压缩包都会清洗成统一的n种jsonl格式,我们未来也会提供工具输入jsonl就知道是哪种格式了,方便各个预训练团队使用数据。 2.对于没有那么多算力的广大微调用户,建议直接使用我们清洗好的huggingface数据。 3.考虑数据打包、数据存储、数据分发的职能隔离,我们使用百度网盘在这多个职能团队之间传递打包好的数据。
明白了 感谢
rt, 最好能在这里或wiki上增加一个压缩包版本信息, 比如某时间增加了多少或修改了某某压缩包, 方便使用者查看更新 另一个思路是, 每个数据有版本号, 如果该数据要变化, 就后续发布patch文件, 在之前数据(压缩包)不变的情况下用户可以应用patch, 这样避免更新时需要重新下载的尴尬, 另外也知道变化了哪些内容, 用户可以自行取舍
中文互联网奇观+1000 非常感谢!