十分推荐看这个UP主的视频,没有特别复杂的数学推导,但是也有一定的深度,看完相信一定会有收获,同时本Blog也可以看成对该视频的总结记录

1.旋转矩阵:

等价于将一个向量逆时针旋转度
我们规定如下记号:

那么有下面几个性质成立:


2.注意力机制:
由于我们现在考虑的都是二维情景,我们就不妨将一个词的Q,K都看成二维向量,也就是:
AI 时代程序员必备技能
Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活
十分推荐看这个UP主的视频,没有特别复杂的数学推导,但是也有一定的深度,看完相信一定会有收获,同时本Blog也可以看成对该视频的总结记录

1.旋转矩阵:

等价于将一个向量逆时针旋转度
我们规定如下记号:

那么有下面几个性质成立:


2.注意力机制:
由于我们现在考虑的都是二维情景,我们就不妨将一个词的Q,K都看成二维向量,也就是:
AI 时代程序员必备技能
Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活
1208
1928
6611
3343

被折叠的 条评论
为什么被折叠?
简述&spm=1001.2101.3001.5002&articleId=147662729&d=1&t=3&u=11a0d62e233e4413a96c91057da612f6)