Closed tangyuq closed 4 years ago
为什用$p_s(v_i) = Softmax(-|| o_s - v_i||) $ 而不用$p_s(v_i) = Softmax(o_s^T v_i) $?
有数学上还是实验结果的原因吗?
实验结果上更好。数学上可以将其理解为RBF kernel.
为什用$p_s(v_i) = Softmax(-|| o_s - v_i||) $ 而不用$p_s(v_i) = Softmax(o_s^T v_i) $?
有数学上还是实验结果的原因吗?