PaddlePaddle / PaddleCustomDevice

PaddlePaddle custom device implementaion. (『飞桨』自定义硬件接入实现)
Apache License 2.0
68 stars 142 forks source link

昇腾910B上训练厂内VIMER-UFO大模型,几个epoch后稳定报错 #836

Closed Jeremy-lf closed 3 months ago

Jeremy-lf commented 10 months ago
7aee8fe238ed06109fee9fac53dee2c2

使用昇腾910B训练VIMER-UFO大模型,在训练几个epoch后会稳定报这个错,如何解决? 如流联系:lvfeng02

YanhuiDua commented 10 months ago

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

Jeremy-lf commented 10 months ago

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

YanhuiDua commented 10 months ago

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

目录刚刚给错了,目录为:/root/ascend/log/debug/plog/;可以把之前的plog都删掉,测试下单独跑评估是否会报错,如果出现一样的错误,cd /root/ascend/log/debug/plog/ && grep ERROR * -C 20,看下相关的报错信息

Jeremy-lf commented 10 months ago

你好,看下/usr/local/Ascend目录下asend的报错log,看下有什么报错信息

目前这个问题是,只训练不评测没问题,但是中间评测的话,他就会报这个错,好像是训练与评测之间切换的问题。你说的那个目录下没有找到相应的log

目录刚刚给错了,目录为:/root/ascend/log/debug/plog/;可以把之前的plog都删掉,测试下单独跑评估是否会报错,如果出现一样的错误,cd /root/ascend/log/debug/plog/ && grep ERROR * -C 20,看下相关的报错信息

单独评测不会报错,只有在训练中评测会报错,报的错就是图里那个

qili93 commented 4 months ago

您好,以上问题是否依旧解决,谢谢!

qili93 commented 3 months ago

Close as no more comments for more then two weeks, please reopen if not resolved, thanks!