逐行对比LLaMA2和LLaMA模型源代码

本文对比了Meta发布的LLaMA2与原始LLaMA模型的源代码,发现主要变化在于增加了一个repeat_kv函数,用于在多头注意力机制中处理键值头数不足的情况。这个函数可能支持分组查询注意力机制,减少计算和存储需求。在推理函数上,LLaMA2从仅输出最后一步概率改为输出每个位置的词汇概率。

几个小时前(2023年7月18日),Meta发布了允许商用的开源模型LLaMA2。笔者逐行对比了LLaMA2模型源代码,和LLaMA相比,几乎没有改动,细节如下:

是否改动 LLaMA2 LLaMA
模型整体构架 Transformer Transformer
规范化函数 均方根规范化(RMSNorm) 均方根规范化(RMSNorm)
位置编码 复数形式的旋转位置编码(RoPE) 复数形式的旋转位置编码(RoPE)
激活函数 SiLU SiLU
注意力机制 略有改动 分组查询多头注意力机制 多头注意力机制
前馈函数 逐元素前馈函数 逐元素前馈函数
连接 残差连接 残差连接
掩码 因果掩码 因果掩码
推理 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值