Closed maosengshulei closed 1 year ago
去掉clip试一下?
去掉clip试一下?
加上clip的原因就是之前embedding层出现INF。之前经常因此导致预测值变为nan,报错。
单机训练是否出inf/nan
单机训练是否出inf/nan
单机正常训练,mpi只用部分数据(30%)偶尔出现nan,全量必出现。
单机加上clip后还出nan么
单机加上clip后还出nan么
单机加clip之前也不出现nan,加上之后也正常,但也有可能是数据量少。
补充说明: mpi训练 embedding层不加gradient_clip 报错:Operator adam output Tensor match&seccate#bayes_ctr_table_moment2_0 contains Inf at [/paddle/paddle/fluid/framework/operator.cc:846]
添加gradient_clip后 报错:Operator clip_by_norm output Tensor clip_by_norm_52.tmp_0 contains NAN at [/paddle/paddle/fluid/framework/operator.cc:848]
补充:mpi单节点训练正常,多节点训练必现以上报错。
模型代码如下 `# !/usr/bin/python
coding=utf-8
import paddle import paddle.fluid as fluid from functools import reduce from itertools import starmap import numpy as np import math
def DNN(args, feat_list):
训练分别测试使用了SGD,ADAM优化器,学习率设置为1e-6,这种情况下一直报错 PaddleCheckError: Operator clip_by_norm output Tensor clip_by_norm_63.tmp_0 contains NAN at [/paddle/paddle/fluid/framework/operator.cc:848] [operator < clip_by_norm > error]