Closed Bhongcheng closed 1 year ago
你好,我想问一下,我理解的是:老哥你在论文中通过求Loss对tp_model的梯度,接着再计算W的梯度,之后采用梯度下降法更新W。 能不能直接在优化器的参数中只加入W,然后反向传播直接求Loss对W的梯度呢 谢谢你,祝你学业顺利,生活愉快!
你好,不是很明白你的问题,可否使用论文或代码中的符号描述?
你好,我想问一下,我理解的是:老哥你在论文中通过求Loss对tp_model的梯度,接着再计算W的梯度,之后采用梯度下降法更新W。 能不能直接在优化器的参数中只加入W,然后反向传播直接求Loss对W的梯度呢 谢谢你,祝你学业顺利,生活愉快!