PaddlePaddle / PaddleMIX

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.
Apache License 2.0
301 stars 117 forks source link

我用json格式的数据做大模型微调,但是数据集过大,在训练时爆内存,请问支持jsonl形式的格式吗,怎么改成jsonl格式呢数据 #579

Open 258863 opened 3 months ago

258863 commented 3 months ago

image 原来是这样写的

JunnYu commented 3 months ago

你好,图中的那个是支持训练的时候支持json传入参数,例如 python run.py argument.json argument.json如下

{
    "batch_size": 1,
    "learning_rate": 1e-4
}
258863 commented 3 months ago

你好,图中的那个是支持训练的时候支持json传入参数,例如 python run.py argument.json argument.json如下

{
    "batch_size": 1,
    "learning_rate": 1e-4
}

但是数据大概40g一次性加载过程中会爆内存,预估加载需要300多g内存,所以除了json数据集还支持其他格式吗比如jsonl

LokeZhou commented 2 months ago

请问是哪个模型?是否开启了mixtoken,如果开启了,可以关掉试试