Closed RyanSunn closed 2 weeks ago
大佬,你好,很感谢您的分享,受益良多 我刚接触LLM的学习,关于transformer结构还有更多的不了解,有几个问题需要请教一下。 我想明白,为什么对q和k变成复变量使用位置编码进行旋转嵌入(可能我描述的不准确),就是以下截图中的代码 还有feed_forward函数的设计,想知道这样设计有哪些好处
你好,可惜在comment中无法三言两语说清楚
https://www.zhihu.com/search?type=content&q=rope
https://www.zhihu.com/search?type=content&q=FFN%E7%9A%84%E4%BD%9C%E7%94%A8
推荐阅读以上
多谢推荐
大佬,你好,很感谢您的分享,受益良多 我刚接触LLM的学习,关于transformer结构还有更多的不了解,有几个问题需要请教一下。 我想明白,为什么对q和k变成复变量使用位置编码进行旋转嵌入(可能我描述的不准确),就是以下截图中的代码 还有feed_forward函数的设计,想知道这样设计有哪些好处