Closed JingLi513 closed 5 years ago
我最近也在实现这个算法,用了torchvision的alexnet,新添加的卷积层Xavier初始化。用sgd优化,按论文中的学习率刚开始训练就梯度爆炸了,不知道你有没有遇到这样的情况
我最近也在实现这个算法,用了torchvision的alexnet,新添加的卷积层Xavier初始化。用sgd优化,按论文中的学习率刚开始训练就梯度爆炸了,不知道你有没有遇到这样的情况