KAN网络深度剖析——从Spline到B-spline的革新之路

最新推荐文章于 2026-06-23 21:31:50 发布

原创

最新推荐文章于 2026-06-23 21:31:50 发布 · 653 阅读

标签

#KAN #B-spline #神经网络 #可解释AI

1. 从MLP到KAN：为什么我们需要一场“底层革命”？

如果你在过去几年里玩过深度学习，哪怕只是跑过一个简单的图像分类demo，那你一定对MLP（多层感知器） 不陌生。它就像深度学习世界的“砖块”，是构成几乎所有复杂网络的基础。从最早的神经网络到如今庞大的Transformer，MLP都是核心的计算单元。它的工作原理很直观：输入数据经过一层层的“线性变换”和“非线性激活函数”（比如ReLU），最终得到输出。理论上，只要层数够多、神经元够多，MLP能逼近任何复杂的函数，这就是著名的“通用逼近定理”。

但用久了，你就会发现MLP的一些“老毛病”。首先，它是个“黑盒子”。你很难说清楚中间某一层、某一个神经元到底在计算什么，它们共同协作，但缺乏独立的、可解释的意义。其次，为了达到高精度，MLP往往需要堆砌海量的参数。想想看，Transformer里的前馈网络（FFN）动辄就是成千上万的维度，参数爆炸式增长，对算力和内存都是巨大的挑战。更重要的是，MLP的“逼近”方式有点“笨”。它试图用一个全局的、由简单非线性函数堆叠而成的网络去拟合所有数据，这就像试图用一把大锤去敲所有钉子，虽然最终可能敲进去，但效率不高，也不够优雅。

这时候，KAN（Kolmogorov-Arnold Networks） 带着一套完全不同的哲学出现了。它不再把非线性能力完全交给那些固定的、死板的激活函数（比如ReLU、Sigmoid），而是把“学习函数形状”这件事，交给了网络本身。KAN的核心思想，是回到了一个更古老的数学定理——Kolmogorov-Arnold表示定理。这个定理说，任何一个复杂的多元连续函数，都可以分解成有限个单变量函数的求和。这听起来有点抽象，我打个比方：你要做一桌满汉全席（复杂多元函数），传统MLP的思路是训练一个超级厨师，让他一次性处理所有食材和工序。而KAN的思路是，请来一群专项厨师，一个专门处理火候（单变量函数1），一个专门负责刀工（单变量函数2），一个专门调味（单变量函数3），最后把他们的成果汇总起来。后者显然更模块化，也更容易理解每个“厨师”的贡献。

KAN就是把这种“专项厨师”的思想实现了。在KAN中，网络边（edge）上的权重不再是简单的标量数字，而是一个个可以学习的、灵活的单变量函数。这些函数用什么来实现呢？这就是样条（Spline），特别是B样条（B-spline） 大显身手的地方。所以，KAN的本质可以看作是 MLP的“骨架” 加上 Spline/B-spline的“血肉” 。它继承了MLP的层级结构和信息传递方式，但用可学习的、平滑的样条函数取代了固定的、僵化的激活函数，从而在理论表达能力、可解释性和参数效率上，都带来了全新的可能性。接下来，我们就深入看看，Spline和B-spline是如何为KAN注入灵魂的。

2. Spline与B-spline：给函数“自由变形”的魔法工具箱

要理解KAN，必须先搞懂它赖以生存的数学工具——样条。你可能没听过这个名字，但你一定用过它的思想。想象一下，你要用一根柔软的尺子（或者PS里的钢笔工具）去勾勒一组散乱的数据点，画出一条光滑的曲线穿过它们，这就是插值。最简单粗暴的方法是用一个非常高阶的多项式函数一次性穿过所有点，但这会带来灾难性的“龙格现象”（Runge‘s phenomenon）：在数据点之间，尤其是区间边缘，曲线会疯狂振荡，完全失去预测意义。

样条聪明地解决了这个问题。它的策略是“分而治之”：把整个定义域分成很多小区间，在每个小区间内，用一个很低阶（比如三次）的多项式来拟合。然后，在区间与区间的连接处（称为“节点”或“结”，Knot），要求这些多项式在函数值、甚至一阶导数、二阶导数上都保持连续。这样，最终拼接出来的整体曲线，既保持了全局的光滑性，又避免了高阶多项式的不稳定振荡。这就像用一段段柔软的、低阶的“弹簧”连接起来，形成一根能平滑弯曲的“样条尺”，故名“样条曲线”。

在KAN的早期构想中，使用的就是这种分段多项式样条。但是，直接使用分段多项式在计算和实现上有些麻烦，特别是在需要动态调整和高效求导时。于是，更强大的工具——B样条（B-spline，Basis-spline的缩写） 登场了。B