ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
Apache License 2.0
7.04k stars 581 forks source link

预训练的数据集文件,能用json格式内容的文件吗? #431

Closed czhcc closed 8 months ago

czhcc commented 9 months ago

提交前必须检查以下项目

问题类型

模型训练与精调

基础模型

Chinese-Alpaca-2 (7B/13B)

操作系统

Linux

详细描述问题

例如用以下JSON格式的文件: [ { "question": "张三的出生日期是什么?", "answer": "张三的出生日期是1990年5月15日。", "context": "张三是一位中国著名的科学家,他的出生日期是1990年5月15日。" }, { "question": "请告诉我张三何时出生?", "answer": "张三出生于1990年5月15日。", "context": "张三是一位杰出的艺术家,他的出生日期是1990年5月15日。" }, // 更多类似的问题和答案 ]

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)
iMountTai commented 9 months ago

当前开源代码不支持JSON格式的预训练数据集。另外看你样本的格式是SFT数据,确定是要拿来做预训练吗?如果做预训练的话,只需要将样本处理成模型需要的输入就行。

github-actions[bot] commented 8 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 8 months ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.