Open long-wa opened 1 year ago
作者您好,请问一下图4中的可视化所采用的top-k 的值是不是16啊,这个可视化来自阶段 3 吗,还是可视化的时候您们在阶段1就选用了top-k的值为16。
阶段3,在论文Section 4.5有提到。更具体一点,是阶段3的最后一个block中的attention。可视化代码在整理,很快就会发布了。
真的太谢谢您了,
作者您好,请问一下图4中的可视化所采用的top-k 的值是不是16啊,这个可视化来自阶段 3 吗,还是可视化的时候您们在阶段1就选用了top-k的值为16。