大模型训练——PEFT与LORA介绍

最新推荐文章于 2026-05-16 21:41:54 发布

原创

最新推荐文章于 2026-05-16 21:41:54 发布 · 6.5w 阅读

251

525

标签

#深度学习 #人工智能 #python

文章介绍了LORA（低秩适应大型语言模型）的原理，它是通过在模型的线性层旁添加一个分支，用低秩矩阵替换原有参数，减少训练所需资源。PEFT是一个Python工具，支持包括LORA在内的多种轻量级微调策略。在LORA中，新增参数只在训练时使用，推理时不影响速度但增加计算量。此外，文章还提及了其他低显存学习方法，并提供了PEFT在HuggingFace模型上的实现示例。

0. 简介

朋友们好，我是练习NLP两年半的算法工程师常鸿宇，今天介绍一下大规模模型的轻量级训练技术LORA，以及相关模块PEFT。Parameter-Efficient Fine-Tuning (PEFT)，是huggingface开发的一个python工具，项目地址：

https://github.com/huggingface/peft

其可以很方便地实现将普通的HF模型变成用于支持轻量级fine-tune的模型，使用非常便捷，目前支持4种策略，分别是：

LoRA: LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation, P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
P-Tuning: GPT Understands, Too
Prompt Tuning: The Power of Scale for Parameter-Efficient Prompt Tuning

今天要介绍的，是其中之一，也是最近比较热门的LORA (LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS)。

1. LORA原理介绍

LORA的论文写的比较难读懂，但是其原理其实并不复杂。简单理解一下，就是在模型的Linear层，的旁边，增加一个“旁支”，这个“旁支”的作用，就是代替原有的参数矩阵W进行训练。

LORA
结合上图，我们来直观地理解一下这个过程，输入 $x$ ，具有维度 $d$ ，举个例子，在普通的transformer模型中，这个 $x$ 可能是embedding的输出，也有可能是上一层transformer layer的输出，而 $d$ 一般就是768或者1024。按照原本的路线，它应该只走左边的部分，也就是原有的模型部分。

而在LORA的策略下，增加了右侧的“旁支”，也就是先用一个Linear层A，将数据从 $d$ 维降到 $r$ ，这个 $r$ 也就是LORA的秩，是LORA中最重要的一个超参数。一般会远远小于 $d$ ，尤其是对于现在的大模型， $d$ 已经不止是768或者1024，例如LLaMA-7B，每一层transformer有32个head，这样一来 $d$ 就达到了4096.

接着再用第二个Linear层B，将数据从 $r$ 变回 $d$ 维。最后再将左右两部分的结果相加融合，就得到了输出的hidden_state。

对于左右两个部分，右侧看起来像是左侧原有矩阵 $W$ 的分解，将参数量从 $d * d$ 变成了 $d * r + d * r$ ，在 $r << d$ 的情况下，参数量就大大地降低了。熟悉各类预训练模型的同学可能会发现，这个思想其实与Albert的思想有异曲同工之处，在Albert中，作者通过两个策略降低了训练的参数量，其一是Embedding矩阵分解，其二是跨层参数共享。

在Albert中，作者考虑到词表的维度很大，所以将Embedding矩阵分解成两个相对较小的矩阵，用来模拟Embedding矩阵的效果，这样一来需要训练的参数量就减少了很多。

LORA也是类似的思想，并且它不再局限于Embedding层，而是所有出现大矩阵的地方，理论上都可以用到这样的分解。

但是与Albert不同的是，Albert直接用两个小矩阵替换了原来的大矩阵，而LORA保留了原来的矩阵W，但是不让W参与训练，所以需要计算梯度的部分就只剩下旁支的A和B两个小矩阵。

从论文中的公式来看，在加入LORA之前，模型训练的优化表示为：
$\max \limits_{\Phi}\sum_{\left(x, y\right) \in Z} \sum_{t=1}^{\vert y \vert} \log \left(P_{\Phi} \left ( y_t \vert x, y_{<t}\right)\right)$

最低0.47元/天解锁文章