请问在中文LLaMa进行sft的数据量是多少呀，想复现一下，数据因该是5w条的json，但是训练多少个epoch或者token数呀，我看介绍是指令4M ，这个没太理解是怎么算的。

ymcui / Chinese-LLaMA-Alpaca

中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)

https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki

Apache License 2.0

18.23k stars 1.86k forks source link

请问在中文LLaMa进行sft的数据量是多少呀，想复现一下，数据因该是5w条的json，但是训练多少个epoch或者token数呀，我看介绍是指令4M ，这个没太理解是怎么算的。 #708

Closed sixgold993 closed 1 year ago

sixgold993 commented 1 year ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 由于相关依赖频繁更新，请确保按照Wiki中的相关步骤执行
[X] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案
[X] 第三方插件问题：例如llama.cpp、text-generation-webui、LlamaChat等，同时建议到对应的项目中查找解决方案
[X] 模型正确性检查：务必检查模型的SHA256.md，模型不对的情况下无法保证效果和正常运行

问题类型

None

基础模型

None

操作系统

None

详细描述问题

# 请在此处粘贴运行代码（如没有可删除该代码块）

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况

运行日志或截图

# 请在此处粘贴运行日志

ymcui commented 1 year ago

4M就是400万条指令数据的意思，指令一般不用token数量作为单位。

sixgold993 commented 1 year ago

谢谢大佬，那意思可以理解为5W条的数据，训练了大概80个epoch？这个判断依据是看loss是否收敛吗？我们在做领域知识注入，发现会随着sft步数增大pretrain的领域知识遗忘，可能是因为sft目前还没有设计，用的也是alpaca的5w条数据。

ymcui commented 1 year ago

400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。我建议你看一下我们的技术报告，里面有相应的说明。

sixgold993 commented 1 year ago

400万指的不是alpaca-50k复制了80份。alpaca-50k只是指令数据中的其中一个来源而已。我建议你看一下我们的技术报告，里面有相应的说明。大佬，我在论文中看到了，其他的来源目前是没有放开提供吧？目前我能找的是alpaca的英文和中文的

github-actions[bot] commented 1 year ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 1 year ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.