Closed JYlsc closed 4 years ago
你好,有几个关于Star-Transformer 的疑问想请教一下:
@QipengGuo 帮忙看看
单纯是速度考量,pytorch本身没有一个直接的方法实现 “在滑动窗口做attention”这个事情。MSA2是one-to-many,一个query到很多key,所以可以直接做。当然用unfold还是一个妥协的方法,我后面做了一种更快的方法,但要手写cuda kernel,伪代码在另一个工作中有提到。
你好,有几个关于Star-Transformer 的疑问想请教一下: