ymcui / Chinese-LLaMA-Alpaca

中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)
https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki
Apache License 2.0
18.23k stars 1.86k forks source link

请问在中文LLaMa进行sft的数据量是多少呀,想复现一下,数据因该是5w条的json,但是训练多少个epoch或者token数呀,我看介绍是指令4M ,这个没太理解是怎么算的。 #708

Closed sixgold993 closed 1 year ago

sixgold993 commented 1 year ago

提交前必须检查以下项目

问题类型

None

基础模型

None

操作系统

None

详细描述问题

# 请在此处粘贴运行代码(如没有可删除该代码块)

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况

运行日志或截图

# 请在此处粘贴运行日志
ymcui commented 1 year ago

4M就是400万条指令数据的意思,指令一般不用token数量作为单位。

sixgold993 commented 1 year ago

谢谢大佬,那意思可以理解为5W条的数据,训练了大概80个epoch?这个判断依据是看loss是否收敛吗? 我们在做领域知识注入,发现会随着sft步数增大pretrain的领域知识遗忘,可能是因为sft目前还没有设计,用的也是alpaca的5w条数据。

ymcui commented 1 year ago

400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。 我建议你看一下我们的技术报告,里面有相应的说明。

sixgold993 commented 1 year ago

400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。 我建议你看一下我们的技术报告,里面有相应的说明。 大佬,我在论文中看到了,其他的来源目前是没有放开提供吧? 目前我能找的是alpaca的英文和中文的

github-actions[bot] commented 1 year ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 1 year ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.