序贯检验：动态决策的统计理论与应用实践

最新推荐文章于 2026-06-29 21:14:43 发布

原创最新推荐文章于 2026-06-29 21:14:43 发布 · 1.4k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习 #人工智能 #假设检验 #序贯检验 #Sequential Test

人工智能同时被 3 个专栏收录

385 篇文章

订阅专栏

Python

352 篇文章

订阅专栏

OTHER

204 篇文章

订阅专栏

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 引言

序贯检验（Sequential Test）是一种革命性的统计推断方法，其核心特征在于不预先固定样本数量，而是随着数据的逐步收集进行动态评估，并在满足预定义的停止规则时立即终止抽样。这种方法由统计学家Abraham Wald在二战期间系统提出，最初用于高效检验军事装备质量。与传统固定样本量检验相比，序贯检验能够在不影响统计功效的前提下，显著减少所需样本量（通常可达30%-80%），在资源受限的场景中具有巨大价值。

在机器学习和人工智能领域，序贯检验为解决动态决策问题提供了强大的理论框架。无论是在线学习中的模型更新、A/B测试中的策略选择，还是强化学习中的探索-利用权衡，序贯检验都能帮助我们在效率与准确性之间找到最佳平衡。随着大数据时代的到来，面对海量数据和实时决策需求，序贯检验的理论和方法变得愈发重要。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

2 📊 序贯检验的基本概念

2.1 定义与核心特点

序贯检验是一种动态抽样技术，其操作流程可以概括为以下步骤：首先设定原假设（H₀）和备择假设（Hₐ），然后依次收集数据点，每获得一个新的数据点就计算检验统计量，并根据预设的停止规则判断是否继续抽样。这一过程持续进行，直到统计量越过某个决策边界，从而得出接受或拒绝原假设的结论。

与传统固定样本量检验相比，序贯检验具有三个核心特点：

样本量灵活性：不预先指定样本量上限，根据数据表现动态调整
实时决策能力：在数据收集过程中持续监控，一旦达到显著性水平即可终止试验
资源效率：平均样本量通常远低于固定样本设计，特别适用于高成本或快速决策场景

2.2 历史背景与发展

序贯检验的起源可以追溯到第二次世界大战期间，当时Abraham Wald及其团队在哥伦比亚大学开发了序贯概率比检验（SPRT），旨在解决军事工业中的高效质量控制问题。Wald的突破性见解在于认识到，固定样本设计在很多时候收集了"不必要"的数据——当效应很明显时，不需要大样本就能做出决策；当效应很微弱时，即使大样本也难以检测到差异。

在Wald提出SPRT后，序贯检验经历了多阶段演进：

1950s-1960s：扩展到临床试验领域，发展出群序贯设计，允许在预定的时间点进行多次期中分析
1970s-1980s：引入截尾方案，解决无限抽样可能带来的实际问题
1990s-2000s：与贝叶斯方法融合，发展出自适应序贯设计
2010s至今：在互联网公司的大规模A/B测试中广泛应用，并扩展到高维数据和复杂假设场景

随着计算能力的提升和统计理论的发展，序贯检验现已形成一套完整的方论体系，并被纳入ISO 2859等国际标准。

3 🧮 序贯检验的数学原理

3.1 序贯概率比检验（SPRT）

序贯概率比检验（SPRT）是序贯检验中最基础且最著名的形式。考虑检验两个简单假设：

H₀: θ = θ₀
Hₐ: θ = θ₁

其中θ是总体参数。令X₁, X₂, …为独立同分布的观测序列，其联合概率密度函数（或概率质量函数）为f(x;θ)。则第n步的似然比为：

$\Lambda_n = \frac{\prod_{i=1}^n f(x_i; \theta_1)}{\prod_{i=1}^n f(x_i; \theta_0)}$

Wald提出的决策规则基于两个常数A和B（其中0 < B < 1 < A）：

如果Λₙ ≥ A，停止抽样并拒绝H₀
如果Λₙ ≤ B，停止抽样并接受H₀（或不拒绝H₀）
如果B < Λₙ < A，继续抽样

在实际应用中，A和B通常与期望的Ⅰ类错误α和Ⅱ类错误β关联。Wald近似建议取A ≈ (1-β)/α，B ≈ β/(1-α)。

3.2 操作特性与平均样本量

序贯检验的两个关键性能指标是操作特征函数（OC）和平均样本量（ASN）。OC函数表示在参数θ的真实值下，最终接受H₀的概率。ASN函数则表示在θ下停止抽样时所需的平均样本数。

对于SPRT，当θ₀和θ₁很接近时，ASN大致与：

$\approx \frac{(1-\beta)\ln B + \alpha \ln A}{E[Z]}$

成正比，其中Z是单个观测的对数似然比。这表明序贯检验在参数接近时节省的样本量最多，而在参数远离时决策更快。

3.3 截尾序贯检验

经典SPRT的一个潜在问题是，在非常极端的情况下，可能需要大量抽样才能做出决策。为解决这个问题，截尾序贯检验被提出，它设定了最大样本量N，当达到N时强制停止抽样并做出决策。

截尾设计虽然在极端情况下可能损失一些效率，但提供了样本量的上界，在实际应用中更易管理和规划。现代截尾方案如序贯网图检验（SMT）可使最大样本量较传统截尾SPRT减少40%以上。

表：序贯检验与固定样本检验的比较

特性	序贯检验	固定样本检验
样本量确定	动态确定，依赖观察结果	预先固定
决策时机	可能在早期即做出决策	必须收集完所有数据
平均样本量	通常较少（节省30%-80%）	固定且相对较大
Ⅰ类错误控制	需特殊技术（如α消耗函数）	较易控制
适用场景	高成本观测、快速决策	样本易得、固定预算