OpenBMB / MiniCPM

MiniCPM-2B: An end-side LLM outperforming Llama2-13B.
Apache License 2.0
4.38k stars 313 forks source link

[Feature Request]: 微调使用的json格式不适合放入大语料,可不可以支持jsonl格式? #142

Closed EchoShoot closed 1 week ago

EchoShoot commented 1 month ago

Feature request / 功能建议

我们通过把多个json语料合并后,超过了内存,导致程序挂了。 语料是否可以支持jsonl格式,这样数据可以 方便逐行合并在一起了。 jsonl 格式非常方便使用

写入 jsonl

with open('xxx.jsonl', 'w') as f:
    for data in datas:
        f.write('\n'+json.dumps(data, ensure_ascii=False)+'\n')

读取 jsonl

for data in map(json.loads, open('xxx.jsonl')):
    print(data)
LDLINGLINGLING commented 3 weeks ago

你可以试着修改数据处理的文件,保证输入模型的数据相同,或者说构造的dataset的实例跟我们官方代码构造的实例一样,那么就不会有问题