逐行对比LLaMA2和LLaMA模型源代码

原创

已于 2023-07-23 09:41:26 修改 · 5.4k 阅读

标签

#深度学习 #自然语言处理 #人工智能

收录于

于 2023-07-19 05:43:28 首次发布

本文对比了Meta发布的LLaMA2与原始LLaMA模型的源代码，发现主要变化在于增加了一个repeat_kv函数，用于在多头注意力机制中处理键值头数不足的情况。这个函数可能支持分组查询注意力机制，减少计算和存储需求。在推理函数上，LLaMA2从仅输出最后一步概率改为输出每个位置的词汇概率。

几个小时前（2023年7月18日），Meta发布了允许商用的开源模型LLaMA2。笔者逐行对比了LLaMA2模型源代码，和LLaMA相比，几乎没有改动，细节如下：

	是否改动	LLaMA2	LLaMA
模型整体构架	无	Transformer	Transformer
规范化函数	无	均方根规范化（RMSNorm）	均方根规范化（RMSNorm）
位置编码	无	复数形式的旋转位置编码（RoPE）	复数形式的旋转位置编码（RoPE）
激活函数	无	SiLU	SiLU
注意力机制	略有改动	分组查询多头注意力机制	多头注意力机制
前馈函数	无	逐元素前馈函数	逐元素前馈函数
连接	无	残差连接	残差连接
掩码	无	因果掩码	因果掩码
推理	<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLaMA-2论文阅读

分享机器学习、深度学习、分布式计算、MLSys相关领域知识

07-29

2462

LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: * 免费可商用版本的大模型 * context上下文增加了一倍，从2K变为了4K * 训练的总token数从1.0T/1.4T增加为2.0T($2 \times 10^{12}$), 在1.4T基础上增加40% * 对于最大的模型参数量65B也增加到了70B

参与评论您还未登录，请先登录后发表或查看评论

三万字长文超详细解读LLama2！

穿着帆布鞋也能走猫步

04-18

6206

自从Transformer架构问世以来，大型语言模型（Large Language Models, LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出，这一技术日益走进大众视野，这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时，Meta AI Meta AI在2023年推出了LLama（Large Language Model Meta AI）系列大语言模型，这一模型初期是以较为封闭的形式面向特定

老码农和你一起学AI系列：LLaMA 2

07-19

1万+

LLMs之LLaMA-2：LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略目录相关文章 LLaMA2的简介 LLaMA2的简介 LLaMA2的安装 LLaMA2的使用方法相关文章理论论文相关 LLMs：《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca-4月17日版》翻

2023年的深度学习入门指南(19) - LLaMA 2源码解析

lusing的专栏

07-25

4947

上一节我们学习了LLaMA 2的补全和聊天两种API的使用方法。本节我们来看看LLaMA 2的源码。

第六十五回时迁火烧翠云楼吴用智取大名府-羊驼大模型的部署应用：llama.cpp和llama.c纯c编译安装部署以及Ollama一键部署

skywalk8163的专栏

04-14

1744

LLaMA羊驼模型是元宇宙平台公司（Meta）公开发布的一款大型语言模型。该模型建立在Transformer基础架构上，采用了多层神经网络结构，有助于捕捉和学习数据中的复杂模式。这种设计使得LLaMA模型在自然语言处理方面表现突出，能够进行语义分析、情感识别和文本生成，广泛应用于人工智能各种场景。羊驼模型最显著的特点之一是它的开源性，这意味着任何研究人员或开发者都可以访问和使用该模型的源代码。此外，羊驼模型是在公开预训练数据上进行训练的，这保证了其通用性和可复现性。

Vicuna：与ChatGPT 性能最相匹配的开源模型

zenRRan的博客

04-05

5702

Vicuna (由stable diffusion 2.1生成)前言最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人员创建的 Vicuna-13B，通过在 ShareGPT 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估，发现Vicuna-13B 的性能达到了ChatGPT 和 Bard 的 90% 以上，同时在 90% ...

浅谈GPT-2、LlaMA与Qwen架构的对比分析

jianghuxiaomiao的博客

10-14

1281

GPT-2、LlaMA-2与Qwen3的transformers源代码架构设计对比分析

LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

beingstrong的博客

07-29

3104

meta的LLaMA模型对应的论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

一文看懂LLaMA2（原理&模型&训练）

Python老吕的博客

06-17

2882

LLaMA2作为大型语言模型的杰出代表，在人工智能领域具有广泛的应用前景和巨大的潜力。通过深入了解其原理、模型架构和训练过程，我们可以更好地应用这一技术来解决实际问题。同时，我们也需要关注其可能带来的伦理和社会问题，并积极寻求解决方案和应对策略。相信在不久的将来，LLaMA2等技术将为人类社会带来更多的福祉和进步。

LLMs之LLaMA-2：源码解读之所有py文件(包括example_text_completion.py/example_chat_completion.py+model.py/generation

09-20

3694

LLMs之LLaMA-2：源码解读之所有py文件(包括example_text_completion.py/example_chat_completion.py+model.py/generation.py/tokenizer.py) 目录一、llama2源码解读—推理功能—(example_text_completion.py/example_chat_completion.py) 二、llama2源码解读—模型/分词器/对话聊天功能—(model.py/genera

Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

beingstrong的博客

09-08

3713

Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》详细阅读笔记记录

十分钟读完 Meta提出Llama 2模型的经典论文：Llama 2: Open Foundation and Fine-Tuned Chat Models

夕小瑶科技说

01-16

1588

随着人工智能技术的飞速发展，大型语言模型（LLMs）已经成为了人类智能助手的代表，它们在需要专业知识的复杂推理任务中表现出色，涵盖了编程、创意写作等多个专业领域。这些模型通过直观的聊天界面与人类互动，迅速获得了广泛的应用和认可。然而，尽管训练方法看似简单，但高昂的计算成本限制了LLMs的发展，仅有少数几家机构能够开发这类模型。

最强开源大模型？Llama 2论文解读

草草君

07-26

2337

在介绍详细工作之前，Meta AI 团队首先将Llama 2 模型的能力进行其他开源模型和比原模型进行了对比，如图1所示。可以看出，在Meta AI 团队的测试中，在模型能力方面，Llama 2 模型的能力已经比肩ChatGPT；在模型的能力和安全性综合能力方面，Llama 2则要更胜一筹。论文中介绍到，经过Meta AI 对大模型的实用性和安全性的测试对比，此次发布的Llama 2是目前开源模型中效果最好的模型，并且可以免费商业。

一文为你深度解析LLaMA2模型架构

华为云官方博客

07-04

2510

本文对比LLaMA1和 LLaMA2模型的技术细节，了解LLaMA2模型的内部核心算法，包括与Transformers架构的差异，以及LLaMA2与国内大模型的异同，进一步加深了大家对LLaMA的理解。

一文看懂llama2（原理&模型&训练）

CV_Autobot的博客

04-08

6253

作者|yeyan 编辑|汽车人原文链接：https://zhuanlan.zhihu.com/p/651248009点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『大模型』技术交流群本文只做学术分享，如有侵权，联系删文1.基础知识llama2是meta最新开源的语言大模型，训练数据集2万亿token，上下文长...

【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍！

yanqianglifei的专栏

07-19

6733

🧮 7B、13B & 70B 参数版本🧠 70B模型采用分组查询注意力（GQA）🛠 聊天模型可以使用工具和插件🚀 LLaMA 2-CHAT 与 OpenAI ChatGPT 效果一样好🤗 发布在HuggingFace：https://huggingface.co/meta-llama公告: https://ai.meta.com/llama/

在Linux系统下部署Llama2（MetaAI）大模型教程

浩栋的博客

11-06

8500

在Linux系统下部署Llama2（MetaAI）大模型教程。1、本文选择部署的模型是Llama2-chat-13B-Chinese-50W。2、由于大部分笔记本电脑无法满足大模型Llama2的部署条件，因此可以选用autodl平台（算力云）作为部署平台。

深入解析LLaMA-2：逐行解读全部Python源码及示例

daimakezhan_cn_d的博客

06-11

1120

1.3、利用生成器的text_completion方法针对每个提示生成文本，传入文本提示列表 prompts 以及其他参数**