从零开始学习大模型:收藏必备!小白程序员必看的大模型微积分之旅

本文深入浅出地解析了大模型训练中微积分的应用。首先将大模型视为一个巨大的复合函数,通过链式法则和梯度下降算法,详细解释了如何利用导数和偏导数来确定参数的调整方向和幅度。文章还探讨了激活函数、损失函数以及梯度消失和梯度爆炸等问题,并强调了线性代数、概率论和微积分在大模型训练中的协同作用。最后,以训练闭环的形式总结了整个训练过程,帮助读者更好地理解大模型训练的核心原理。

图片

上一节我们讲了高等数学里最常用的几个概念:

导数、偏导数、梯度、梯度下降、链式法则。

很多人学到这里,会有一个疑问:

这些东西在大模型里到底怎么用?

这篇就把它们放回大模型训练现场。

你会发现,大模型并不是一个“会思考的神秘盒子”。

从数学上看,它更像一个巨大函数。

输入一句话,经过很多层计算,输出下一个词的预测结果。

训练的过程,就是不断调整这个函数里的参数,让预测越来越接近真实答案。

而微积分负责的,就是回答一个关键问题:

每个参数应该往哪个方向改,才能让错误变小?

01 大模型本质上是一个超复杂复合函数

图片

先把大模型想简单一点。

一个模型接收输入:

X

然后输出结果:

Z

如果写成函数,就是:

Z = Model(X; Θ)

这里有三个关键对象:

  • X:输入的词向量序列
  • Z:模型输出的词表得分
  • Θ:模型里所有可训练参数

Θ这个符号看起来很抽象,其实就是模型里所有权重矩阵、偏置、归一化参数等数字的总集合。

大模型训练,说白了就是不断修改 Θ

但大模型不是一层函数。

它是很多层函数套在一起:

X -> f1 -> f2 -> f3 -> ... -> Z

每一层都接收上一层的输出,再算出新的表示。

所以大模型本质上是一个巨大的复合函数。

这也是为什么链式法则会变得非常重要。

只要函数一层套一层,想知道最前面的参数对最终损失有什么影响,就必须把每一层的影响一层层算回去。

02 从一层网络开始:线性函数 + 激活函数

图片

先回答你可能会问的第一个问题:

这就是神经网络的基本单元吗?

更准确地说:

h = σ(xW + b)

描述的是“一层网络”的计算方式。

如果拆得更细,神经网络里常见的基本计算单元叫“神经元”。

一个神经元做的事情很简单:

输入 -> 加权求和 -> 加上偏置 -> 经过激活函数 -> 输出

假设输入有三个数字:

x1, x2, x3

每个输入都有一个对应权重:

w1, w2, w3

那么一个神经元可以写成:

h = σ(x1w1 + x2w2 + x3w3 + b)

这里的 b是偏置。

它的作用可以先理解成:

给神经元一个可调整的基础偏移量。

如果没有偏置,所有变化都必须完全依赖输入和权重。

有了偏置,神经元可以更灵活地调整输出位置。

图片

所以,单个神经元输出的是一个数字。

如果我们想让这一层输出多个数字,就可以把多个神经元并排放在一起。

比如同样输入 x1, x2, x3,同时送给 4 个神经元。

每个神经元都有自己的一组权重和偏置。

最后就会得到 4 个输出:

h1, h2, h3, h4

这 4 个输出放在一起,就是一个新的向量。

这就是“一层网络”。

用矩阵写法,可以把多个神经元的计算压缩成一行:

h = xW + b

它就是一层网络里的线性部分。

其中:

  • x是输入向量
  • W是这一层所有神经元的权重矩阵
  • b是偏置
  • h是这一层输出的新向量

如果拆开看,W里的每一列,通常可以对应这一层的一个输出神经元。

输入向量 x和权重矩阵 W相乘,相当于让输入同时进入很多个神经元,分别算出多个结果。

所以 xW + b做的事情是:

把输入向量按照一套权重规则重新组合。

但只有线性变换还不够。

如果很多层都是线性函数,叠在一起以后,本质上仍然可以合并成一个线性函数。

为了让模型表达更复杂的关系,中间会加入激活函数:

h = σ(xW + b)

σ可以是 ReLU、GELU、Sigmoid 等。

加入激活函数后,这一层就不只是“线性换算”,而是可以对不同信号做筛选、压制和保留。

这也是深层网络能学习复杂模式的重要原因。

那多层神经网络是怎么连起来的?

答案也很直接:

上一层的输出,会变成下一层的输入。

比如第一层算出:

h1 = σ(xW1 + b1)

第二层就接着用 h1当输入:

h2 = σ(h1W2 + b2)

再往后:

z = h2W3 + b3

这样一层接一层连接起来,就形成了神经网络:

输入层 -> 隐藏层 1 -> 隐藏层 2 -> 输出层

图片

在最经典的全连接层里,上一层的每个输出,都会连接到下一层的每个神经元。

每一条连接背后都有一个权重。

训练时,模型要更新的,正是这些权重和偏置。

所以可以这样总结:

单个神经元:输出一个数
一层网络:多个神经元并排,输出一个向量
多层网络:上一层输出接到下一层输入
训练过程:不断调整所有连接上的权重

Transformer 里的结构比这个复杂很多,有注意力层、前馈网络、残差连接和归一化。

但从训练角度看,它依然离不开这条主线:

输入经过一层层函数计算,损失函数衡量误差,反向传播再把梯度传回每一层。

03 损失函数:模型错多少,要变成一个数字

图片

模型输出一个结果以后,还不能直接训练。

我们需要先回答:

这次预测到底错了多少?

这就需要损失函数。

比如模型看到前文:

我早上喜欢喝

真实答案是:

但模型给出的概率可能是:

茶   0.62
咖啡 0.21
汽车 0.01

如果正确答案概率很高,损失就比较小。

如果模型把概率大量分给了错误答案,损失就会变大。

损失函数可以写成:

L(Θ)

这句话的含义是:

当前这一组参数 Θ,会产生一个损失值 L。

所以训练目标就变得很明确:

让 L(Θ) 越来越小

注意,大模型不是“知道自己错了”。

它只是通过损失函数,把预测结果和真实答案之间的差距变成一个数字。

后面的所有优化,都是围绕这个数字展开。

04 单个权重怎么影响损失?看导数

图片

现在假设模型里只有一个参数:

w

损失函数就是:

L(w)

我们想知道:

如果 w 稍微变大一点,损失 L 会怎么变?

这就是导数要回答的问题:

dL / dw

它表示:

权重 w 微小变化时,损失 L 的变化速度。

如果:

dL / dw > 0

说明 w增大,会让损失变大。

那我们就应该让 w变小一点。

如果:

dL / dw < 0

说明 w增大,会让损失变小。

那我们就可以让 w变大一点。

如果导数接近 0,说明这个参数在当前位置附近对损失影响不大。

这一点非常关键。

导数不是为了算一个漂亮公式。

它是在告诉模型:

这个参数往哪边动,错误会变小。

05 参数太多怎么办?偏导数登场

图片

真实大模型当然不可能只有一个参数。

它可能有几百万、几亿,甚至更多参数。

这些参数通常散落在很多矩阵里:

W1, W2, W3, ...

每个矩阵里又有很多小格子:

w11, w12, w13, ...

那问题来了:

损失变大了,到底应该改哪个权重?

这时候就需要偏导数。

对某个权重 w_ij来说:

∂L / ∂w_ij

表示:

其他参数先不动,只改动这个权重,损失会变化多快。

这句话很重要。

偏导数不是所有参数一起变。

它的动作是:

只看一个参数对整体损失的影响。

每个参数都有自己的偏导数。

偏导数越大,说明这个参数当前对损失的影响越明显。

偏导数的正负,则告诉模型这个参数应该往哪个方向调。

06 梯度:所有偏导数组成一张“参数调整地图”

图片

既然每个参数都有一个偏导数,那把所有偏导数收集起来,会得到什么?

答案就是梯度:

∇L

如果模型参数是一个大矩阵,那么梯度也会是一个对应的大矩阵。

如果模型参数分布在很多层、很多矩阵里,那么梯度也会对应分布在很多层、很多矩阵里。

你可以这样理解:

参数 Θ 里每一个数字
都有一个对应的梯度值

梯度里的每个数,都在告诉模型两件事:

  • 这个参数该往上调还是往下调
  • 这个参数当前应该调多少

所以梯度不是一个单独的数字。

它更像一张巨大的参数调整地图。

地图上每个位置都对应一个权重。

训练时,模型会根据这张地图,对所有参数做一次小幅修改。

07 梯度下降:为什么沿着负梯度方向走

图片

梯度有一个重要性质:

它指向函数上升最快的方向。

但训练模型不是为了让损失变大。

我们希望损失变小。

所以参数更新要沿着梯度的反方向走。

常见写法是:

新参数 = 旧参数 - 学习率 × 梯度

这里有两个重点。

第一,为什么是减号?

因为梯度指向上升方向,而我们要下降。

第二,学习率是什么?

学习率决定每一步走多远。

如果学习率太大,可能一步跨过最低点,在两边来回震荡。

如果学习率太小,每次只挪一点点,训练会非常慢。

所以梯度下降不是玄学。

它就是在不断做一件事:

找到让损失上升的方向,然后反过来小步调整参数。

08 链式法则:错误是怎么一层层传回去的

图片

现在来看大模型最核心的训练动作:

反向传播。

假设有这样一条计算链路:

x -> h1 -> h2 -> z -> L

含义是:

  • 输入 x进入第一层,得到 h1
  • h1进入第二层,得到 h2
  • h2继续计算,得到输出 z
  • 输出 z和真实答案比较,得到损失 L

前向传播很好理解:

从输入一路算到损失。

但训练时更关键的问题是:

最后得到的损失,怎么知道前面每一层该怎么改?

靠链式法则。

比如我们想知道 h1对损失 L的影响,就要把后面的影响一层层乘起来:

∂L/∂h1 = ∂L/∂z × ∂z/∂h2 × ∂h2/∂h1

这就是反向传播的数学主线。

它不是单独发明出来的魔法。

它就是链式法则在深层网络里的工程实现。

有了链式法则,最后一层的错误才能一路传回前面的层。

前面的权重,才知道自己对最终损失到底贡献了多少。

09 梯度消失和梯度爆炸:深层模型为什么难训

图片

链式法则很强,但它也带来一个问题:

多层导数要不断相乘。

如果很多层的导数都小于 1,比如:

0. **5 × 0.5 × 0.5 × 0.5 ...**

乘到前面时,数值会越来越小。

最后传到浅层时,梯度几乎变成 0

这就是梯度消失。

它会导致前面的层几乎收不到更新信号。

参数不怎么动,模型就很难学到底层特征。

反过来,如果很多层的导数都比较大,比如:

2 × 2 × 2 × 2 ...

梯度可能越传越大。

这就是梯度爆炸。

它会导致参数更新幅度过大,训练过程剧烈震荡,甚至无法收敛。

所以深层模型训练不是“层数越多越好”这么简单。

层数越深,梯度传递越需要被认真设计。

Transformer 里的残差连接、归一化、梯度裁剪等技术,很多都和训练稳定性有关。

10 激活函数里的单调性:ReLU 为什么像一个过滤器

图片

上一节高数里讲过单调性。

放到神经网络里,一个很典型的例子就是 ReLU:

ReLU(x) = max(0, x)

它的规则非常简单:

  • 输入小于 0,输出变成 0
  • 输入大于 0,输出保持原值

比如:

ReLU(-2) = 0
ReLU(3) = 3

这就像一个信号过滤器。

负向信号被压掉。

正向信号继续往后传。

而且在 x > 0的区间里,ReLU 是单调递增的。

输入越大,输出也越大。

这让模型可以保留强信号,同时压制一部分无效信号。

当然,真实大模型里常见的激活函数不止 ReLU,还有 GELU、SwiGLU 等。

但入门阶段先抓住这一点就够了:

激活函数决定哪些信息继续传播,哪些信息被压制。

11 把三门基础课串起来:线性代数、概率论、微积分各管什么

图片

到这里,我们可以把前面几篇文章串起来。

大模型并不是只靠某一个数学概念撑起来的。

它更像三门基础课一起协作。

线性代数负责“表示和计算”:

  • 文字变成词向量
  • 参数存在权重矩阵里
  • 矩阵乘法完成信息变换
  • 点积衡量向量之间的关联强弱

概率论负责“预测和选择”:

  • 模型输出 logits
  • Softmax 变成概率分布
  • 条件概率描述上下文和下一个词的关系
  • 交叉熵衡量预测分布和真实答案的差距

微积分负责“训练和优化”:

  • 损失函数衡量错误
  • 偏导数衡量单个参数的影响
  • 梯度给出整体调整方向
  • 链式法则支撑反向传播
  • 梯度下降更新参数

把它们连起来,就是大模型训练的完整链路:

文字 -> 向量 -> 矩阵计算 -> 概率分布 -> 损失函数 -> 梯度 -> 参数更新

线性代数让数据能被计算。

概率论让模型能表达不确定性。

微积分让模型能根据错误调整自己。

12 最后用训练闭环收束一下

图片

大模型训练可以浓缩成四步:

第一步,前向传播。

输入文本进入

最后

如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。

图片

现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!

图片

看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?

别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型系统化学习路线

在这里插入图片描述

2、大模型学习书籍&文档

在这里插入图片描述

3、AI大模型最新行业报告

在这里插入图片描述

4、大模型项目实战&配套源码

img

5、大模型大厂面试真题

img

四阶段精细化学习规划(附时间节点,可直接照做)

结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

6、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值