从零开始学习大模型：收藏必备！小白程序员必看的大模型微积分之旅-CSDN博客

本文深入浅出地解析了大模型训练中微积分的应用。首先将大模型视为一个巨大的复合函数，通过链式法则和梯度下降算法，详细解释了如何利用导数和偏导数来确定参数的调整方向和幅度。文章还探讨了激活函数、损失函数以及梯度消失和梯度爆炸等问题，并强调了线性代数、概率论和微积分在大模型训练中的协同作用。最后，以训练闭环的形式总结了整个训练过程，帮助读者更好地理解大模型训练的核心原理。

上一节我们讲了高等数学里最常用的几个概念：

导数、偏导数、梯度、梯度下降、链式法则。

很多人学到这里，会有一个疑问：

❝

这些东西在大模型里到底怎么用？

❞

这篇就把它们放回大模型训练现场。

你会发现，大模型并不是一个“会思考的神秘盒子”。

从数学上看，它更像一个巨大函数。

输入一句话，经过很多层计算，输出下一个词的预测结果。

训练的过程，就是不断调整这个函数里的参数，让预测越来越接近真实答案。

而微积分负责的，就是回答一个关键问题：

❝

每个参数应该往哪个方向改，才能让错误变小？

❞

01 大模型本质上是一个超复杂复合函数

先把大模型想简单一点。

一个模型接收输入：

然后输出结果：

如果写成函数，就是：

Z = Model(X; Θ)

这里有三个关键对象：

X：输入的词向量序列
Z：模型输出的词表得分
Θ：模型里所有可训练参数

Θ这个符号看起来很抽象，其实就是模型里所有权重矩阵、偏置、归一化参数等数字的总集合。

大模型训练，说白了就是不断修改 Θ。

但大模型不是一层函数。

它是很多层函数套在一起：

X -> f1 -> f2 -> f3 -> ... -> Z

每一层都接收上一层的输出，再算出新的表示。

所以大模型本质上是一个巨大的复合函数。

这也是为什么链式法则会变得非常重要。

只要函数一层套一层，想知道最前面的参数对最终损失有什么影响，就必须把每一层的影响一层层算回去。

02 从一层网络开始：线性函数 + 激活函数

先回答你可能会问的第一个问题：

❝

这就是神经网络的基本单元吗？

❞

更准确地说：

h = σ(xW + b)

描述的是“一层网络”的计算方式。

如果拆得更细，神经网络里常见的基本计算单元叫“神经元”。

一个神经元做的事情很简单：

输入 -> 加权求和 -> 加上偏置 -> 经过激活函数 -> 输出

假设输入有三个数字：

x1, x2, x3

每个输入都有一个对应权重：

w1, w2, w3

那么一个神经元可以写成：

h = σ(x1w1 + x2w2 + x3w3 + b)

这里的 b是偏置。

它的作用可以先理解成：

❝

给神经元一个可调整的基础偏移量。

❞

如果没有偏置，所有变化都必须完全依赖输入和权重。

有了偏置，神经元可以更灵活地调整输出位置。

所以，单个神经元输出的是一个数字。

如果我们想让这一层输出多个数字，就可以把多个神经元并排放在一起。

比如同样输入 x1, x2, x3，同时送给 4 个神经元。

每个神经元都有自己的一组权重和偏置。

最后就会得到 4 个输出：

h1, h2, h3, h4

这 4 个输出放在一起，就是一个新的向量。

这就是“一层网络”。

用矩阵写法，可以把多个神经元的计算压缩成一行：

h = xW + b

它就是一层网络里的线性部分。

其中：

x是输入向量
W是这一层所有神经元的权重矩阵
b是偏置
h是这一层输出的新向量

如果拆开看，W里的每一列，通常可以对应这一层的一个输出神经元。

输入向量 x和权重矩阵 W相乘，相当于让输入同时进入很多个神经元，分别算出多个结果。

所以 xW + b做的事情是：

❝

把输入向量按照一套权重规则重新组合。

❞

但只有线性变换还不够。

如果很多层都是线性函数，叠在一起以后，本质上仍然可以合并成一个线性函数。

为了让模型表达更复杂的关系，中间会加入激活函数：

h = σ(xW + b)

σ可以是 ReLU、GELU、Sigmoid 等。

加入激活函数后，这一层就不只是“线性换算”，而是可以对不同信号做筛选、压制和保留。

这也是深层网络能学习复杂模式的重要原因。

那多层神经网络是怎么连起来的？

答案也很直接：

❝

上一层的输出，会变成下一层的输入。

❞

比如第一层算出：

h1 = σ(xW1 + b1)

第二层就接着用 h1当输入：

h2 = σ(h1W2 + b2)

再往后：

z = h2W3 + b3

这样一层接一层连接起来，就形成了神经网络：

输入层 -> 隐藏层 1 -> 隐藏层 2 -> 输出层

在最经典的全连接层里，上一层的每个输出，都会连接到下一层的每个神经元。

每一条连接背后都有一个权重。

训练时，模型要更新的，正是这些权重和偏置。

所以可以这样总结：

单个神经元：输出一个数
一层网络：多个神经元并排，输出一个向量
多层网络：上一层输出接到下一层输入
训练过程：不断调整所有连接上的权重

Transformer 里的结构比这个复杂很多，有注意力层、前馈网络、残差连接和归一化。

但从训练角度看，它依然离不开这条主线：

❝

输入经过一层层函数计算，损失函数衡量误差，反向传播再把梯度传回每一层。

❞

03 损失函数：模型错多少，要变成一个数字

模型输出一个结果以后，还不能直接训练。

我们需要先回答：

❝

这次预测到底错了多少？

❞

这就需要损失函数。

比如模型看到前文：

我早上喜欢喝

真实答案是：

茶

但模型给出的概率可能是：

茶   0.62
咖啡 0.21
汽车 0.01

如果正确答案概率很高，损失就比较小。

如果模型把概率大量分给了错误答案，损失就会变大。

损失函数可以写成：

L(Θ)

这句话的含义是：

❝

当前这一组参数 Θ，会产生一个损失值 L。

❞

所以训练目标就变得很明确：

让 L(Θ) 越来越小

注意，大模型不是“知道自己错了”。

它只是通过损失函数，把预测结果和真实答案之间的差距变成一个数字。

后面的所有优化，都是围绕这个数字展开。

04 单个权重怎么影响损失？看导数

现在假设模型里只有一个参数：

损失函数就是：

L(w)

我们想知道：

❝

如果 w 稍微变大一点，损失 L 会怎么变？

❞

这就是导数要回答的问题：

dL / dw

它表示：

❝

权重 w 微小变化时，损失 L 的变化速度。

❞

如果：

dL / dw > 0

说明 w增大，会让损失变大。

那我们就应该让 w变小一点。

如果：

dL / dw < 0

说明 w增大，会让损失变小。

那我们就可以让 w变大一点。

如果导数接近 0，说明这个参数在当前位置附近对损失影响不大。

这一点非常关键。

导数不是为了算一个漂亮公式。

它是在告诉模型：

❝

这个参数往哪边动，错误会变小。

❞

05 参数太多怎么办？偏导数登场

真实大模型当然不可能只有一个参数。

它可能有几百万、几亿，甚至更多参数。

这些参数通常散落在很多矩阵里：

W1, W2, W3, ...

每个矩阵里又有很多小格子：

w11, w12, w13, ...

那问题来了：

❝

损失变大了，到底应该改哪个权重？

❞

这时候就需要偏导数。

对某个权重 w_ij来说：

∂L / ∂w_ij

表示：

❝

其他参数先不动，只改动这个权重，损失会变化多快。

❞

这句话很重要。

偏导数不是所有参数一起变。

它的动作是：

❝

只看一个参数对整体损失的影响。

❞

每个参数都有自己的偏导数。

偏导数越大，说明这个参数当前对损失的影响越明显。

偏导数的正负，则告诉模型这个参数应该往哪个方向调。

06 梯度：所有偏导数组成一张“参数调整地图”

既然每个参数都有一个偏导数，那把所有偏导数收集起来，会得到什么？

答案就是梯度：

∇L

如果模型参数是一个大矩阵，那么梯度也会是一个对应的大矩阵。

如果模型参数分布在很多层、很多矩阵里，那么梯度也会对应分布在很多层、很多矩阵里。

你可以这样理解：

参数 Θ 里每一个数字
都有一个对应的梯度值

梯度里的每个数，都在告诉模型两件事：

这个参数该往上调还是往下调
这个参数当前应该调多少

所以梯度不是一个单独的数字。

它更像一张巨大的参数调整地图。

地图上每个位置都对应一个权重。

训练时，模型会根据这张地图，对所有参数做一次小幅修改。

07 梯度下降：为什么沿着负梯度方向走

梯度有一个重要性质：

❝

它指向函数上升最快的方向。

❞

但训练模型不是为了让损失变大。

我们希望损失变小。

所以参数更新要沿着梯度的反方向走。

常见写法是：

新参数 = 旧参数 - 学习率 × 梯度

这里有两个重点。

第一，为什么是减号？

因为梯度指向上升方向，而我们要下降。

第二，学习率是什么？

学习率决定每一步走多远。

如果学习率太大，可能一步跨过最低点，在两边来回震荡。

如果学习率太小，每次只挪一点点，训练会非常慢。

所以梯度下降不是玄学。

它就是在不断做一件事：

❝

找到让损失上升的方向，然后反过来小步调整参数。

❞

08 链式法则：错误是怎么一层层传回去的

现在来看大模型最核心的训练动作：

反向传播。

假设有这样一条计算链路：

x -> h1 -> h2 -> z -> L

含义是：

输入 x进入第一层，得到 h1
h1进入第二层，得到 h2
h2继续计算，得到输出 z
输出 z和真实答案比较，得到损失 L

前向传播很好理解：

❝

从输入一路算到损失。

❞

但训练时更关键的问题是：

❝

最后得到的损失，怎么知道前面每一层该怎么改？

❞

靠链式法则。

比如我们想知道 h1对损失 L的影响，就要把后面的影响一层层乘起来：

∂L/∂h1 = ∂L/∂z × ∂z/∂h2 × ∂h2/∂h1

这就是反向传播的数学主线。

它不是单独发明出来的魔法。

它就是链式法则在深层网络里的工程实现。

有了链式法则，最后一层的错误才能一路传回前面的层。

前面的权重，才知道自己对最终损失到底贡献了多少。

09 梯度消失和梯度爆炸：深层模型为什么难训

链式法则很强，但它也带来一个问题：

❝

多层导数要不断相乘。

❞

如果很多层的导数都小于 1，比如：

0. **5 × 0.5 × 0.5 × 0.5 ...**

乘到前面时，数值会越来越小。

最后传到浅层时，梯度几乎变成 0。

这就是梯度消失。

它会导致前面的层几乎收不到更新信号。

参数不怎么动，模型就很难学到底层特征。

反过来，如果很多层的导数都比较大，比如：

2 × 2 × 2 × 2 ...

梯度可能越传越大。

这就是梯度爆炸。

它会导致参数更新幅度过大，训练过程剧烈震荡，甚至无法收敛。

所以深层模型训练不是“层数越多越好”这么简单。

层数越深，梯度传递越需要被认真设计。

Transformer 里的残差连接、归一化、梯度裁剪等技术，很多都和训练稳定性有关。

10 激活函数里的单调性：ReLU 为什么像一个过滤器

上一节高数里讲过单调性。

放到神经网络里，一个很典型的例子就是 ReLU：

ReLU(x) = max(0, x)

它的规则非常简单：

输入小于 0，输出变成 0
输入大于 0，输出保持原值

比如：

ReLU(-2) = 0
ReLU(3) = 3

这就像一个信号过滤器。

负向信号被压掉。

正向信号继续往后传。

而且在 x > 0的区间里，ReLU 是单调递增的。

输入越大，输出也越大。

这让模型可以保留强信号，同时压制一部分无效信号。

当然，真实大模型里常见的激活函数不止 ReLU，还有 GELU、SwiGLU 等。

但入门阶段先抓住这一点就够了：

❝

激活函数决定哪些信息继续传播，哪些信息被压制。

❞

11 把三门基础课串起来：线性代数、概率论、微积分各管什么

到这里，我们可以把前面几篇文章串起来。

大模型并不是只靠某一个数学概念撑起来的。

它更像三门基础课一起协作。

线性代数负责“表示和计算”：

文字变成词向量
参数存在权重矩阵里
矩阵乘法完成信息变换
点积衡量向量之间的关联强弱

概率论负责“预测和选择”：

模型输出 logits
Softmax 变成概率分布
条件概率描述上下文和下一个词的关系
交叉熵衡量预测分布和真实答案的差距

微积分负责“训练和优化”：

损失函数衡量错误
偏导数衡量单个参数的影响
梯度给出整体调整方向
链式法则支撑反向传播
梯度下降更新参数

把它们连起来，就是大模型训练的完整链路：

文字 -> 向量 -> 矩阵计算 -> 概率分布 -> 损失函数 -> 梯度 -> 参数更新

线性代数让数据能被计算。

概率论让模型能表达不确定性。

微积分让模型能根据错误调整自己。

12 最后用训练闭环收束一下

大模型训练可以浓缩成四步：

第一步，前向传播。

输入文本进入

最后

如果说程序员已经是高薪职业，那么干AI的程序员，就是高薪中的高薪。

现在的市场，已经用数据给程序员指明了方向：学AI大模型，就是冲刺高薪的最优解！

看着身边越来越多的同行转型大模型、拿到高薪offer，很多人心里都动了心，但真正的难题来了：零基础小白不知道从哪入门？有基础的程序员找不到系统学习路径？实战项目练手无门？面试不知道考什么？

别慌！今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包，覆盖从入门到实战、从理论到面试、从基础到进阶的全流程，所有资料均已整理归档，无冗余、无套路，免费分享给每一位想抓住AI风口的程序员和小白！

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型系统化学习路线

在这里插入图片描述

2、大模型学习书籍&文档

在这里插入图片描述

3、AI大模型最新行业报告

在这里插入图片描述

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

6、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述