Closed czhcc closed 8 months ago
当前开源代码不支持JSON格式的预训练数据集。另外看你样本的格式是SFT数据,确定是要拿来做预训练吗?如果做预训练的话,只需要将样本处理成模型需要的输入就行。
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.
提交前必须检查以下项目
问题类型
模型训练与精调
基础模型
Chinese-Alpaca-2 (7B/13B)
操作系统
Linux
详细描述问题
例如用以下JSON格式的文件: [ { "question": "张三的出生日期是什么?", "answer": "张三的出生日期是1990年5月15日。", "context": "张三是一位中国著名的科学家,他的出生日期是1990年5月15日。" }, { "question": "请告诉我张三何时出生?", "answer": "张三出生于1990年5月15日。", "context": "张三是一位杰出的艺术家,他的出生日期是1990年5月15日。" }, // 更多类似的问题和答案 ]
依赖情况(代码类问题务必提供)
运行日志或截图