Closed sixgold993 closed 1 year ago
4M就是400万条指令数据的意思,指令一般不用token数量作为单位。
谢谢大佬,那意思可以理解为5W条的数据,训练了大概80个epoch?这个判断依据是看loss是否收敛吗? 我们在做领域知识注入,发现会随着sft步数增大pretrain的领域知识遗忘,可能是因为sft目前还没有设计,用的也是alpaca的5w条数据。
400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。 我建议你看一下我们的技术报告,里面有相应的说明。
400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。 我建议你看一下我们的技术报告,里面有相应的说明。 大佬,我在论文中看到了,其他的来源目前是没有放开提供吧? 目前我能找的是alpaca的英文和中文的
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.
提交前必须检查以下项目
问题类型
None
基础模型
None
操作系统
None
详细描述问题
依赖情况(代码类问题务必提供)
运行日志或截图