Open xuyue1112 opened 1 month ago
llamafactory
dataset: xxx eval_dataset: xxx template: qwen2_vl cutoff_len: 4096 max_samples: 5000000 overwrite_cache: true preprocessing_num_workers: 16
训练过程中,Running tokenizer on dataset 的速度逐渐从 几百 samples/s 下降到 个位数。 请教下可能是哪里有问题?
无
经过我的实际测试,#5458 应该解决了这个问题
@AlongWY 我也遇到了同样的问题,但你这个应该是针对packing情况的,如果没有packing应该怎么改呢
没有 packing 也会下降到个位数吗?按理说应该不会吧
Reminder
System Info
llamafactory
version: 0.9.1.dev0Reproduction
dataset
dataset: xxx eval_dataset: xxx template: qwen2_vl cutoff_len: 4096 max_samples: 5000000 overwrite_cache: true preprocessing_num_workers: 16
Expected behavior
训练过程中,Running tokenizer on dataset 的速度逐渐从 几百 samples/s 下降到 个位数。 请教下可能是哪里有问题?
Others
无