Closed EchoShoot closed 1 week ago
我们通过把多个json语料合并后,超过了内存,导致程序挂了。 语料是否可以支持jsonl格式,这样数据可以 方便逐行合并在一起了。 jsonl 格式非常方便使用
with open('xxx.jsonl', 'w') as f: for data in datas: f.write('\n'+json.dumps(data, ensure_ascii=False)+'\n')
for data in map(json.loads, open('xxx.jsonl')): print(data)
你可以试着修改数据处理的文件,保证输入模型的数据相同,或者说构造的dataset的实例跟我们官方代码构造的实例一样,那么就不会有问题
Feature request / 功能建议
我们通过把多个json语料合并后,超过了内存,导致程序挂了。 语料是否可以支持jsonl格式,这样数据可以 方便逐行合并在一起了。 jsonl 格式非常方便使用
写入 jsonl
读取 jsonl