jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT,个人显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.7k stars 329 forks source link

Transformer结构问题 #71

Closed RyanSunn closed 2 weeks ago

RyanSunn commented 3 weeks ago

大佬,你好,很感谢您的分享,受益良多 我刚接触LLM的学习,关于transformer结构还有更多的不了解,有几个问题需要请教一下。 我想明白,为什么对q和k变成复变量使用位置编码进行旋转嵌入(可能我描述的不准确),就是以下截图中的代码 image 还有feed_forward函数的设计,想知道这样设计有哪些好处 image

jingyaogong commented 3 weeks ago

你好,可惜在comment中无法三言两语说清楚

https://www.zhihu.com/search?type=content&q=rope

https://www.zhihu.com/search?type=content&q=FFN%E7%9A%84%E4%BD%9C%E7%94%A8

推荐阅读以上

RyanSunn commented 3 weeks ago

多谢推荐