几个小时前(2023年7月18日),Meta发布了允许商用的开源模型LLaMA2。笔者逐行对比了LLaMA2模型源代码,和LLaMA相比,几乎没有改动,细节如下:
| 是否改动 | LLaMA2 | LLaMA | |
| 模型整体构架 | 无 | Transformer | Transformer |
| 规范化函数 | 无 | 均方根规范化(RMSNorm) | 均方根规范化(RMSNorm) |
| 位置编码 | 无 | 复数形式的旋转位置编码(RoPE) | 复数形式的旋转位置编码(RoPE) |
| 激活函数 | 无 | SiLU | SiLU |
| 注意力机制 | 略有改动 | 分组查询多头注意力机制 | 多头注意力机制 |
| 前馈函数 | 无 | 逐元素前馈函数 | 逐元素前馈函数 |
| 连接 | 无 | 残差连接 | 残差连接 |
| 掩码 | 无 | 因果掩码 | 因果掩码 |
| 推理 | < |

本文对比了Meta发布的LLaMA2与原始LLaMA模型的源代码,发现主要变化在于增加了一个repeat_kv函数,用于在多头注意力机制中处理键值头数不足的情况。这个函数可能支持分组查询注意力机制,减少计算和存储需求。在推理函数上,LLaMA2从仅输出最后一步概率改为输出每个位置的词汇概率。

2462

被折叠的 条评论
为什么被折叠?



