Closed MrJiangZhongZheng closed 8 months ago
https://arxiv.org/pdf/2203.08913.pdf
https://arxiv.org/pdf/2203.08913.pdf 这篇文章证明在某些层进行lookup似乎更好
目前没有尝试,你可以修改 patch 为不同层使用不同的 streaming attention,比如0-7、24-31层使用 infinite lm,我们计划之后加入这个功能的支持。
https://arxiv.org/pdf/2203.08913.pdf