Closed 2793145003 closed 1 year ago
你好, 感谢你的反馈,我们会优化一下训练过程中的报错。 目前可以尝试用try catch包一下trainer.train(),比如
try:
trainer.train()
except BaseException as e:
import sys
import traceback
from rich.console import Console
file = open("./traceback.log", 'a+')
sys.stdout = file
traceback.print_exc(file=file)
file.write("\n\n")
Console().print_exception()
raise e
你好, 感谢你的反馈,我们会优化一下训练过程中的报错。 目前可以尝试用try catch包一下trainer.train(),比如
try: trainer.train() except BaseException as e: import sys import traceback from rich.console import Console file = open("./traceback.log", 'a+') sys.stdout = file traceback.print_exc(file=file) file.write("\n\n") Console().print_exception() raise e
感谢回复! 用try catch之后也没有任何报错信息。 又搜了一下好像是deepspeed的问题。或者说是docker设置的问题。 解决方法在这里: https://github.com/microsoft/DeepSpeed/issues/4002
按照readme里的步骤来的,只把模型换成了llama-2-70B。 输出:
重启容器之后恢复正常。 再次重启之后换成8卡
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --rdzv_backend=c10d --rdzv_endpoint=localhost:29402 --nnodes=1 --nproc_per_node=8
输出:请问这种情况应该如何debug呢……