Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 422 forks source link

自建数据集及sample\instruct\data_sample.jsonl的问题 #184

Closed LKk8563 closed 1 year ago

LKk8563 commented 1 year ago

请问:在使用finetune_others_continue时,使用的是--resume_from_checkpoint Chinese-Vicuna-lora-7b-belle-and-guanaco-11600,当选--data_path 参数为sample\instruct\data_sample.jsonl时,可以正常继续训练,当选择--data_path sample/instruct/answers_sum.json(备注:自建数据集)则无法加载,程序提示: Failed to read file 'D:\AI_Vicuna\Chinese-Vicuna-master\sample\instruct\answers_sum.json' with error <class 'pyarrow.lib.ArrowInvalid'>: JSON parse error: The document is empty. 其中:answers_sum.json格式为: { "instruction": "供电服务关键指标包括哪些?", "input": "", "output": "客户投诉率、客户满意度、 “互联网+”线上业务受理率、业扩服务时限达标率、95598工单处理及时率、平均抢修时长、巡视计划执行率、 配电缺陷消除及时率等。" } data_sample.jsonl格式为: {"instruction": "用一句话描述地球为什么是独一无二的。\n\n", "input": "", "output": "地球上有适宜生命存在的条件和多样化的生命形式。"}

Facico commented 1 year ago

“The document is empty”你可能需要检查一下你的文件,以及路径指定的到底对不对(你可以换成绝对路径试试)