当深度学习回归数学：一本关于模型原理推导的系统性著作

原创于 2026-06-26 09:50:10 发布 · 440 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

深度学习发展至今，工程实践的复杂度已经远超早期研究者的想象。现代框架封装了绝大多数底层细节，模型训练从数学问题变成了工程问题——选择架构、调整超参数、处理数据，一切都可以在几行代码中完成。但这种便利性也带来了一个隐患：我们对模型的理解，正在从"知道为什么"退化为"知道怎么做" 。

这种退化在研究和工程实践中都有体现。论文中的方法论部分，"straightforward derivation"几乎成了标准用语；工程中的模型调试，试错法取代了理论分析。当模型表现不佳时，我们倾向于换一个架构试试，而不是先思考当前架构的数学假设是否适用于这个问题。

《深度学习的数学工程：模型背后的数学原理》这本书，试图从另一个角度回答这个问题：

如果把深度学习看作一门数学工程学科，它的核心概念和架构应该如何从数学上被理解和推导。

深度学习作为数学工程

全书的核心立场是，深度学习不仅仅是计算机科学的应用领域，而是一门数学工程学科。这意味着神经网络的每一个组件——从最基本的线性变换到复杂的注意力机制——都应该有严格的数学定义和推导过程。

作者 Benoît Liqulet、Sarat Moka 和 Yoni Nazarathy 分别来自麦考瑞大学数学与物理科学学院、新南威尔士大学数学与统计学院和昆士兰大学数学与物理学院，这个背景决定了全书的叙事逻辑：从数学出发，再到模型。

全书 8 章的结构，本质上是在构建一个完整的数学框架：

基础层（第 1-2 章） 建立深度学习的数学语言。不是简单地罗列线性代数和概率统计的知识点，而是重新定义这些工具在深度学习语境下的含义。例如，线性模型的学习被形式化为优化问题，正则化被解释为对解空间的约束，泛化能力被分解为偏差-方差权衡。这些概念在大多数深度学习教材中都是"提一下"的程度，但在这里被严格推导。

核心机制（第 3-4 章） 从 logistic 回归开始，展示它如何等价于一个单神经元网络，然后扩展到 softmax 和浅层自编码器。第 4 章的优化算法部分是全书数学密度最高的章节之一，ADAM 的推导从指数平滑开始，逐步引入动量项、自适应学习率和偏差校正，每一步都有明确的数学动机，而不是"实验发现这样效果好"。

网络架构（第 5-7 章） 分别讨论前馈网络、卷积网络和序列模型。反向传播算法的推导采用一般递归模型的形式，然后特化到全连接网络，梯度消失和爆炸的数学解释、Xavier 初始化的推导、批量归一化的参数回传，这些在工程实践中经常被忽视的细节，在这里都有完整的数学处理。第 7 章的 Transformer 部分，从自注意力的数学定义出发，解释多头注意力为什么要除以 √d_k（方差稳定性），位置编码为什么选择正弦函数（相对位置的线性可表示性），这些"为什么"在代码层面是看不到的。

前沿模型（第 8 章） 覆盖变分自编码器、扩散模型、GAN、强化学习和图神经网络。这一章的价值在于，它不是简单介绍这些模型"是什么"，而是从统一的数学框架出发，展示它们如何从基本原理中推导出来。例如，扩散模型的推导从层次变分自编码器开始，通过引入扩散假设简化损失函数，重参数化技巧的应用让整个过程在数学上变得清晰。

几个值得深入讨论的数学观点

1. 反向传播的递归本质

大多数教材把反向传播当作链式求导的应用，这本书的处理方式更一般化。它首先定义一个递归计算模型，然后推导梯度在这个递归结构中的传播方式。这种方法的好处是，反向传播不再只是"全连接网络的专属算法"，而可以自然地扩展到 CNN、RNN 甚至更复杂的架构。对于理解现代深度学习框架的自动微分机制，这种视角特别有价值。

2. 注意力机制的数学动机

第 7 章对注意力机制的讨论，不是从"我们需要关注重要信息"这种直观解释开始，而是从编码器-解码器架构的信息瓶颈问题出发。当源序列很长时，固定长度的上下文向量无法承载所有信息，注意力机制本质上是让这个上下文向量变成一个动态的加权和。打分函数的几种变体（点积、缩放点积、加性）都有对应的数学性质讨论，而不是简单的经验选择。

3. 扩散模型与变分推断的统一

第 8 章把扩散模型放在变分自编码器的框架下讨论，这是一个很有启发性的视角。扩散过程可以被理解为一种特殊的层次结构，前向过程是固定的马尔可夫链，反向过程是需要学习的。通过变分下界（ELBO）的推导，扩散模型的训练目标被简化为噪声预测的均方误差，这个简化过程的数学处理非常清晰。

配套资源与学习方法

这本书配套了学习网站 deeplearningmath.org，提供扩展练习题、暑期课程视频、教学 PPT 和案例源代码。从网站内容来看，配套资源的设计是围绕书中的数学推导展开的，而不是简单的代码实现。

对于想系统学习的人，建议按照章节顺序阅读，因为数学概念是层层递进的。对于已经有一定基础、只想补充特定知识点的人，可以直接跳到感兴趣的章节——比如想理解 Transformer 的数学细节，第 7 章可以独立阅读；想了解扩散模型的理论基础，第 8.2 节足够完整。

写在最后

深度学习的工程实践已经非常成熟，但数学理解的深度，往往决定了一个研究者或工程师能否在关键时刻做出正确的判断。当我们理解了模型背后的数学原理，调试不再是盲目的试错，架构选择不再是跟风，论文阅读也不再被"straightforward derivation"卡住。

这本书的价值，在于它提供了一个完整的数学框架，让我们能够从原理层面理解深度学习。它不是那种"读完就能写代码"的实战指南，而是"读完能想清楚"的理论基础。

对于想在数学层面建立完整图景的人，这本书值得一读。

📖 《深度学习的数学工程：模型背后的数学原理》

Benoît Liqulet, Sarat Moka, Yoni Nazarathy 著 | 王斌译

人民邮电出版社 | 2026 年 6 月

京东购买链接：点击这里