请求开源数据集 - Githubissues

CrazyBoyM commented 7 months ago

您好，我是一位热爱开源事业的学生，很高兴看到联通也在自我创新，积极拥抱大模型社区开源。
众周知，数据是大模型的生命之泉，当前不少大模型都是只上传了一个检查点权重，而没有对数据进行开源，
导致开源模型与闭源模型差异极大，而商用闭源模型往往经过各种意想不到的指令任务上的迭代，并且通过用户反馈形成了闭源的数据飞轮。
私以为数据才是最重要的财富，特别是在sft阶段，不知贵机构有没有兴趣考虑对训练所用的中文指令数据也进行开源呢？

Gao-pw commented 7 months ago

附议

UnicomAI commented 7 months ago

您好，我是一位热爱开源事业的学生，很高兴看到联通也在自我创新，积极拥抱大模型社区开源。众周知，数据是大模型的生命之泉，当前不少大模型都是只上传了一个检查点权重，而没有对数据进行开源，导致开源模型与闭源模型差异极大，而商用闭源模型往往经过各种意想不到的指令任务上的迭代，并且通过用户反馈形成了闭源的数据飞轮。私以为数据才是最重要的财富，特别是在sft阶段，不知贵机构有没有兴趣考虑对训练所用的中文指令数据也进行开源呢？

使用llamafactory的自带的开源指令试试

Mit0chrondr1a commented 7 months ago

确实 LLM的开源应该包括训练集

KingMV commented 7 months ago

我觉得很难。如果是企业自己内部标注的数据，肯定不会开的。花个上千万做好的数据，就这样公开给别人用了，不太现实了，此外还涉及到国内数据隐私的问题。

UnicomAI / Unichat-llama3-Chinese

请求开源数据集 #3