Open no-execution opened 1 month ago
按照readme中流程完成训练 64 卡 训练qwen2.5 72B模型 生成了.pth文件夹,一共64个.pt文件 在转hf模型过程中,突然中断,没有任何报错
check了内存、显存、cpu占用,均无异常
7B模型就可以转换成功
看了一下,是读deepspeed 的 .pt文件时中断的
有什么解决办法吗?
按照readme中流程完成训练 64 卡 训练qwen2.5 72B模型 生成了.pth文件夹,一共64个.pt文件 在转hf模型过程中,突然中断,没有任何报错
check了内存、显存、cpu占用,均无异常
7B模型就可以转换成功
看了一下,是读deepspeed 的 .pt文件时中断的
有什么解决办法吗?