RuntimeError: Rank 2 successfully reached monitoredBarrier, but received errors while waiting for send/recv from rank 0. Please check rank 0 logs for faulty rank.

InternLM / xtuner

An efficient, flexible and full-featured toolkit for fine-tuning LLM (InternLM2, Llama3, Phi3, Qwen, Mistral, ...)

Apache License 2.0

3.64k stars 297 forks source link

@lesjie-wen , Hi!

从log来看，有两个方法可以尝试一下：

判断一下数据处理时间是否超过了30分钟（从log来看只用了~15分钟，但建议还是检查一下）。xtuner默认会在数据处理超过30分钟后强制退出，以避免某些未知错误。用户可以通过设置环境变量XTUNER_DATASET_TIMEOUT来改变这一timeout 分钟数，例如XTUNER_DATASET_TIMEOUT=120 xtuner train xxx
如果不符合上述情况1，那么可以考虑是在数据处理阶段发生了内存的OOM，可以监控一下数据处理阶段时内存的变化。

InternLM / xtuner