预训练的数据集文件，能用json格式内容的文件吗？

czhcc commented 9 months ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案。
[X] 第三方插件问题：例如llama.cpp、LangChain、text-generation-webui等，同时建议到对应的项目中查找解决方案。

问题类型

模型训练与精调

基础模型

Chinese-Alpaca-2 (7B/13B)

操作系统

Linux

详细描述问题

例如用以下JSON格式的文件： [ { "question": "张三的出生日期是什么？", "answer": "张三的出生日期是1990年5月15日。", "context": "张三是一位中国著名的科学家，他的出生日期是1990年5月15日。" }, { "question": "请告诉我张三何时出生？", "answer": "张三出生于1990年5月15日。", "context": "张三是一位杰出的艺术家，他的出生日期是1990年5月15日。" }, // 更多类似的问题和答案 ]

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

运行日志或截图

# 请在此处粘贴运行日志（请粘贴在本代码块里）

iMountTai commented 9 months ago

当前开源代码不支持JSON格式的预训练数据集。另外看你样本的格式是SFT数据，确定是要拿来做预训练吗？如果做预训练的话，只需要将样本处理成模型需要的输入就行。

github-actions[bot] commented 8 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.

github-actions[bot] commented 8 months ago

Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.

ymcui / Chinese-LLaMA-Alpaca-2