深度学习发展至今,工程实践的复杂度已经远超早期研究者的想象。现代框架封装了绝大多数底层细节,模型训练从数学问题变成了工程问题——选择架构、调整超参数、处理数据,一切都可以在几行代码中完成。但这种便利性也带来了一个隐患:我们对模型的理解,正在从"知道为什么"退化为"知道怎么做" 。
这种退化在研究和工程实践中都有体现。论文中的方法论部分,"straightforward derivation"几乎成了标准用语;工程中的模型调试,试错法取代了理论分析。当模型表现不佳时,我们倾向于换一个架构试试,而不是先思考当前架构的数学假设是否适用于这个问题。
《深度学习的数学工程:模型背后的数学原理》这本书,试图从另一个角度回答这个问题:
如果把深度学习看作一门数学工程学科,它的核心概念和架构应该如何从数学上被理解和推导。
深度学习作为数学工程
全书的核心立场是,深度学习不仅仅是计算机科学的应用领域,而是一门数学工程学科。这意味着神经网络的每一个组件——从最基本的线性变换到复杂的注意力机制——都应该有严格的数学定义和推导过程。
作者 Benoît Liqulet、Sarat Moka 和 Yoni Nazarathy 分别来自麦考瑞大学数学与物理科学学院、新南威尔士大学数学与统计学院和昆士兰大学数学与物理学院,这个背景决定了全书的叙事逻辑:从数学出发,再到模型。
全书 8 章的结构,本质上是在构建一个完整的数学框架:
基础层(第 1-2 章) 建立深度学习的数学语言。不是简单地罗列线性代数和概率统计的知识点,而是重新定义这些工具在深度学习语境下的含义。例如,线性模型的学习被形式化为优化问题,正则化被解释为对解空间的约束,泛化能力被分解为偏差-方差权衡。这些概念在大多数深度学习教材中都是"提一下"的程度,但在这里被严格推导。
核心机制(第 3-4 章) 从 logistic 回归开始,展示它如何等价于一个单神经元网络,然后扩展到 softmax 和浅层自编码器。第 4 章的优化算法部分是全书数学密度最高的章节之一,ADAM 的推导从指数平滑开始,逐步引入动量项、自适应学习率和偏差校正,每一步都有明确的数学动机,而不是"实验发现这样效果好"。
网络架构(第 5-7 章) 分别讨论前馈网络、卷积网络和序列模型。反向传播算法的推导采用一般递归模型的形式,然后特化到全连接网络,梯度消失和爆炸的数学解释、Xavier 初始化的推导、批量归一化的参数回传,这些在工程实践中经常被忽视的细节,在这里都有完整的数学处理。第 7 章的 Transformer 部分,从自注意力的数学定义出发,解释多头注意力为什么要除以 √d_k(方差稳定性),位置编码为什么选择正弦函数(相对位置的线性可表示性),这些"为什么"在代码层面是看不到的。
前沿模型(第 8 章) 覆盖变分自编码器、扩散模型、GAN、强化学习和图神经网络。这一章的价值在于,它不是简单介绍这些模型"是什么",而是从统一的数学框架出发,展示它们如何从基本原理中推导出来。例如,扩散模型的推导从层次变分自编码器开始,通过引入扩散假设简化损失函数,重参数化技巧的应用让整个过程在数学上变得清晰。
几个值得深入讨论的数学观点
1. 反向传播的递归本质
大多数教材把反向传播当作链式求导的应用,这本书的处理方式更一般化。它首先定义一个递归计算模型,然后推导梯度在这个递归结构中的传播方式。这种方法的好处是,反向传播不再只是"全连接网络的专属算法",而可以自然地扩展到 CNN、RNN 甚至更复杂的架构。对于理解现代深度学习框架的自动微分机制,这种视角特别有价值。
2. 注意力机制的数学动机
第 7 章对注意力机制的讨论,不是从"我们需要关注重要信息"这种直观解释开始,而是从编码器-解码器架构的信息瓶颈问题出发。当源序列很长时,固定长度的上下文向量无法承载所有信息,注意力机制本质上是让这个上下文向量变成一个动态的加权和。打分函数的几种变体(点积、缩放点积、加性)都有对应的数学性质讨论,而不是简单的经验选择。
3. 扩散模型与变分推断的统一
第 8 章把扩散模型放在变分自编码器的框架下讨论,这是一个很有启发性的视角。扩散过程可以被理解为一种特殊的层次结构,前向过程是固定的马尔可夫链,反向过程是需要学习的。通过变分下界(ELBO)的推导,扩散模型的训练目标被简化为噪声预测的均方误差,这个简化过程的数学处理非常清晰。
配套资源与学习方法
这本书配套了学习网站 deeplearningmath.org,提供扩展练习题、暑期课程视频、教学 PPT 和案例源代码。从网站内容来看,配套资源的设计是围绕书中的数学推导展开的,而不是简单的代码实现。
对于想系统学习的人,建议按照章节顺序阅读,因为数学概念是层层递进的。对于已经有一定基础、只想补充特定知识点的人,可以直接跳到感兴趣的章节——比如想理解 Transformer 的数学细节,第 7 章可以独立阅读;想了解扩散模型的理论基础,第 8.2 节足够完整。
写在最后
深度学习的工程实践已经非常成熟,但数学理解的深度,往往决定了一个研究者或工程师能否在关键时刻做出正确的判断。当我们理解了模型背后的数学原理,调试不再是盲目的试错,架构选择不再是跟风,论文阅读也不再被"straightforward derivation"卡住。
这本书的价值,在于它提供了一个完整的数学框架,让我们能够从原理层面理解深度学习。它不是那种"读完就能写代码"的实战指南,而是"读完能想清楚"的理论基础。
对于想在数学层面建立完整图景的人,这本书值得一读。
📖 《深度学习的数学工程:模型背后的数学原理》

Benoît Liqulet, Sarat Moka, Yoni Nazarathy 著 | 王斌 译
人民邮电出版社 | 2026 年 6 月
京东购买链接:点击这里

1736

被折叠的 条评论
为什么被折叠?



