本文深入浅出地解析了大模型训练中微积分的应用。首先将大模型视为一个巨大的复合函数,通过链式法则和梯度下降算法,详细解释了如何利用导数和偏导数来确定参数的调整方向和幅度。文章还探讨了激活函数、损失函数以及梯度消失和梯度爆炸等问题,并强调了线性代数、概率论和微积分在大模型训练中的协同作用。最后,以训练闭环的形式总结了整个训练过程,帮助读者更好地理解大模型训练的核心原理。

上一节我们讲了高等数学里最常用的几个概念:
导数、偏导数、梯度、梯度下降、链式法则。
很多人学到这里,会有一个疑问:
❝
这些东西在大模型里到底怎么用?
❞
这篇就把它们放回大模型训练现场。
你会发现,大模型并不是一个“会思考的神秘盒子”。
从数学上看,它更像一个巨大函数。
输入一句话,经过很多层计算,输出下一个词的预测结果。
训练的过程,就是不断调整这个函数里的参数,让预测越来越接近真实答案。
而微积分负责的,就是回答一个关键问题:
❝
每个参数应该往哪个方向改,才能让错误变小?
❞
01 大模型本质上是一个超复杂复合函数

先把大模型想简单一点。
一个模型接收输入:
X
然后输出结果:
Z
如果写成函数,就是:
Z = Model(X; Θ)
这里有三个关键对象:
X:输入的词向量序列Z:模型输出的词表得分Θ:模型里所有可训练参数
Θ这个符号看起来很抽象,其实就是模型里所有权重矩阵、偏置、归一化参数等数字的总集合。
大模型训练,说白了就是不断修改 Θ。
但大模型不是一层函数。
它是很多层函数套在一起:
X -> f1 -> f2 -> f3 -> ... -> Z
每一层都接收上一层的输出,再算出新的表示。
所以大模型本质上是一个巨大的复合函数。
这也是为什么链式法则会变得非常重要。
只要函数一层套一层,想知道最前面的参数对最终损失有什么影响,就必须把每一层的影响一层层算回去。
02 从一层网络开始:线性函数 + 激活函数

先回答你可能会问的第一个问题:
❝
这就是神经网络的基本单元吗?
❞
更准确地说:
h = σ(xW + b)
描述的是“一层网络”的计算方式。
如果拆得更细,神经网络里常见的基本计算单元叫“神经元”。
一个神经元做的事情很简单:
输入 -> 加权求和 -> 加上偏置 -> 经过激活函数 -> 输出
假设输入有三个数字:
x1, x2, x3
每个输入都有一个对应权重:
w1, w2, w3
那么一个神经元可以写成:
h = σ(x1w1 + x2w2 + x3w3 + b)
这里的 b是偏置。
它的作用可以先理解成:
❝
给神经元一个可调整的基础偏移量。
❞
如果没有偏置,所有变化都必须完全依赖输入和权重。
有了偏置,神经元可以更灵活地调整输出位置。

所以,单个神经元输出的是一个数字。
如果我们想让这一层输出多个数字,就可以把多个神经元并排放在一起。
比如同样输入 x1, x2, x3,同时送给 4 个神经元。
每个神经元都有自己的一组权重和偏置。
最后就会得到 4 个输出:
h1, h2, h3, h4
这 4 个输出放在一起,就是一个新的向量。
这就是“一层网络”。
用矩阵写法,可以把多个神经元的计算压缩成一行:
h = xW + b
它就是一层网络里的线性部分。
其中:
x是输入向量W是这一层所有神经元的权重矩阵b是偏置h是这一层输出的新向量
如果拆开看,W里的每一列,通常可以对应这一层的一个输出神经元。
输入向量 x和权重矩阵 W相乘,相当于让输入同时进入很多个神经元,分别算出多个结果。
所以 xW + b做的事情是:
❝
把输入向量按照一套权重规则重新组合。
❞
但只有线性变换还不够。
如果很多层都是线性函数,叠在一起以后,本质上仍然可以合并成一个线性函数。
为了让模型表达更复杂的关系,中间会加入激活函数:
h = σ(xW + b)
σ可以是 ReLU、GELU、Sigmoid 等。
加入激活函数后,这一层就不只是“线性换算”,而是可以对不同信号做筛选、压制和保留。
这也是深层网络能学习复杂模式的重要原因。
那多层神经网络是怎么连起来的?
答案也很直接:
❝
上一层的输出,会变成下一层的输入。
❞
比如第一层算出:
h1 = σ(xW1 + b1)
第二层就接着用 h1当输入:
h2 = σ(h1W2 + b2)
再往后:
z = h2W3 + b3
这样一层接一层连接起来,就形成了神经网络:
输入层 -> 隐藏层 1 -> 隐藏层 2 -> 输出层

在最经典的全连接层里,上一层的每个输出,都会连接到下一层的每个神经元。
每一条连接背后都有一个权重。
训练时,模型要更新的,正是这些权重和偏置。
所以可以这样总结:
单个神经元:输出一个数
一层网络:多个神经元并排,输出一个向量
多层网络:上一层输出接到下一层输入
训练过程:不断调整所有连接上的权重
Transformer 里的结构比这个复杂很多,有注意力层、前馈网络、残差连接和归一化。
但从训练角度看,它依然离不开这条主线:
❝
输入经过一层层函数计算,损失函数衡量误差,反向传播再把梯度传回每一层。
❞
03 损失函数:模型错多少,要变成一个数字

模型输出一个结果以后,还不能直接训练。
我们需要先回答:
❝
这次预测到底错了多少?
❞
这就需要损失函数。
比如模型看到前文:
我早上喜欢喝
真实答案是:
茶
但模型给出的概率可能是:
茶 0.62
咖啡 0.21
汽车 0.01
如果正确答案概率很高,损失就比较小。
如果模型把概率大量分给了错误答案,损失就会变大。
损失函数可以写成:
L(Θ)
这句话的含义是:
❝
当前这一组参数 Θ,会产生一个损失值 L。
❞
所以训练目标就变得很明确:
让 L(Θ) 越来越小
注意,大模型不是“知道自己错了”。
它只是通过损失函数,把预测结果和真实答案之间的差距变成一个数字。
后面的所有优化,都是围绕这个数字展开。
04 单个权重怎么影响损失?看导数

现在假设模型里只有一个参数:
w
损失函数就是:
L(w)
我们想知道:
❝
如果 w 稍微变大一点,损失 L 会怎么变?
❞
这就是导数要回答的问题:
dL / dw
它表示:
❝
权重 w 微小变化时,损失 L 的变化速度。
❞
如果:
dL / dw > 0
说明 w增大,会让损失变大。
那我们就应该让 w变小一点。
如果:
dL / dw < 0
说明 w增大,会让损失变小。
那我们就可以让 w变大一点。
如果导数接近 0,说明这个参数在当前位置附近对损失影响不大。
这一点非常关键。
导数不是为了算一个漂亮公式。
它是在告诉模型:
❝
这个参数往哪边动,错误会变小。
❞
05 参数太多怎么办?偏导数登场

真实大模型当然不可能只有一个参数。
它可能有几百万、几亿,甚至更多参数。
这些参数通常散落在很多矩阵里:
W1, W2, W3, ...
每个矩阵里又有很多小格子:
w11, w12, w13, ...
那问题来了:
❝
损失变大了,到底应该改哪个权重?
❞
这时候就需要偏导数。
对某个权重 w_ij来说:
∂L / ∂w_ij
表示:
❝
其他参数先不动,只改动这个权重,损失会变化多快。
❞
这句话很重要。
偏导数不是所有参数一起变。
它的动作是:
❝
只看一个参数对整体损失的影响。
❞
每个参数都有自己的偏导数。
偏导数越大,说明这个参数当前对损失的影响越明显。
偏导数的正负,则告诉模型这个参数应该往哪个方向调。
06 梯度:所有偏导数组成一张“参数调整地图”

既然每个参数都有一个偏导数,那把所有偏导数收集起来,会得到什么?
答案就是梯度:
∇L
如果模型参数是一个大矩阵,那么梯度也会是一个对应的大矩阵。
如果模型参数分布在很多层、很多矩阵里,那么梯度也会对应分布在很多层、很多矩阵里。
你可以这样理解:
参数 Θ 里每一个数字
都有一个对应的梯度值
梯度里的每个数,都在告诉模型两件事:
- 这个参数该往上调还是往下调
- 这个参数当前应该调多少
所以梯度不是一个单独的数字。
它更像一张巨大的参数调整地图。
地图上每个位置都对应一个权重。
训练时,模型会根据这张地图,对所有参数做一次小幅修改。
07 梯度下降:为什么沿着负梯度方向走

梯度有一个重要性质:
❝
它指向函数上升最快的方向。
❞
但训练模型不是为了让损失变大。
我们希望损失变小。
所以参数更新要沿着梯度的反方向走。
常见写法是:
新参数 = 旧参数 - 学习率 × 梯度
这里有两个重点。
第一,为什么是减号?
因为梯度指向上升方向,而我们要下降。
第二,学习率是什么?
学习率决定每一步走多远。
如果学习率太大,可能一步跨过最低点,在两边来回震荡。
如果学习率太小,每次只挪一点点,训练会非常慢。
所以梯度下降不是玄学。
它就是在不断做一件事:
❝
找到让损失上升的方向,然后反过来小步调整参数。
❞
08 链式法则:错误是怎么一层层传回去的

现在来看大模型最核心的训练动作:
反向传播。
假设有这样一条计算链路:
x -> h1 -> h2 -> z -> L
含义是:
- 输入
x进入第一层,得到h1 h1进入第二层,得到h2h2继续计算,得到输出z- 输出
z和真实答案比较,得到损失L
前向传播很好理解:
❝
从输入一路算到损失。
❞
但训练时更关键的问题是:
❝
最后得到的损失,怎么知道前面每一层该怎么改?
❞
靠链式法则。
比如我们想知道 h1对损失 L的影响,就要把后面的影响一层层乘起来:
∂L/∂h1 = ∂L/∂z × ∂z/∂h2 × ∂h2/∂h1
这就是反向传播的数学主线。
它不是单独发明出来的魔法。
它就是链式法则在深层网络里的工程实现。
有了链式法则,最后一层的错误才能一路传回前面的层。
前面的权重,才知道自己对最终损失到底贡献了多少。
09 梯度消失和梯度爆炸:深层模型为什么难训

链式法则很强,但它也带来一个问题:
❝
多层导数要不断相乘。
❞
如果很多层的导数都小于 1,比如:
0. **5 × 0.5 × 0.5 × 0.5 ...**
乘到前面时,数值会越来越小。
最后传到浅层时,梯度几乎变成 0。
这就是梯度消失。
它会导致前面的层几乎收不到更新信号。
参数不怎么动,模型就很难学到底层特征。
反过来,如果很多层的导数都比较大,比如:
2 × 2 × 2 × 2 ...
梯度可能越传越大。
这就是梯度爆炸。
它会导致参数更新幅度过大,训练过程剧烈震荡,甚至无法收敛。
所以深层模型训练不是“层数越多越好”这么简单。
层数越深,梯度传递越需要被认真设计。
Transformer 里的残差连接、归一化、梯度裁剪等技术,很多都和训练稳定性有关。
10 激活函数里的单调性:ReLU 为什么像一个过滤器

上一节高数里讲过单调性。
放到神经网络里,一个很典型的例子就是 ReLU:
ReLU(x) = max(0, x)
它的规则非常简单:
- 输入小于
0,输出变成0 - 输入大于
0,输出保持原值
比如:
ReLU(-2) = 0
ReLU(3) = 3
这就像一个信号过滤器。
负向信号被压掉。
正向信号继续往后传。
而且在 x > 0的区间里,ReLU 是单调递增的。
输入越大,输出也越大。
这让模型可以保留强信号,同时压制一部分无效信号。
当然,真实大模型里常见的激活函数不止 ReLU,还有 GELU、SwiGLU 等。
但入门阶段先抓住这一点就够了:
❝
激活函数决定哪些信息继续传播,哪些信息被压制。
❞
11 把三门基础课串起来:线性代数、概率论、微积分各管什么

到这里,我们可以把前面几篇文章串起来。
大模型并不是只靠某一个数学概念撑起来的。
它更像三门基础课一起协作。
线性代数负责“表示和计算”:
- 文字变成词向量
- 参数存在权重矩阵里
- 矩阵乘法完成信息变换
- 点积衡量向量之间的关联强弱
概率论负责“预测和选择”:
- 模型输出 logits
- Softmax 变成概率分布
- 条件概率描述上下文和下一个词的关系
- 交叉熵衡量预测分布和真实答案的差距
微积分负责“训练和优化”:
- 损失函数衡量错误
- 偏导数衡量单个参数的影响
- 梯度给出整体调整方向
- 链式法则支撑反向传播
- 梯度下降更新参数
把它们连起来,就是大模型训练的完整链路:
文字 -> 向量 -> 矩阵计算 -> 概率分布 -> 损失函数 -> 梯度 -> 参数更新
线性代数让数据能被计算。
概率论让模型能表达不确定性。
微积分让模型能根据错误调整自己。
12 最后用训练闭环收束一下

大模型训练可以浓缩成四步:
第一步,前向传播。
输入文本进入
最后
如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。

现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!

看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?
别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!
👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

2、大模型学习书籍&文档

3、AI大模型最新行业报告

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇

6、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】



被折叠的 条评论
为什么被折叠?



