2025 Nature：AI 天气预报不该只给一个未来，GenCast 想预测一组可能未来

原创于 2026-07-03 01:29:46 发布 · 207 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

2025 Nature：AI 天气预报不该只给一个未来，GenCast 想预测一组可能未来

1. Paper Information

今天读的是 Nature 论文 Probabilistic weather forecasting with machine learning，模型名叫 GenCast。

Paper: Probabilistic weather forecasting with machine learning
Journal: Nature 637, 84-90 (2025)
Online publication: 2024-12-04
DOI: https://doi.org/10.1038/s41586-024-08252-9
Research question: 机器学习天气预报能不能不只给一个未来，而是给出一组可信的未来轨迹？

这篇论文的核心价值不在于“AI 又快了一点”，而在于它把 ML 天气预报推向了更接近实际决策的形态：概率天气预报（probabilistic weather forecasting）。

2. Why is the old route not enough?

天气预报本质上不是一个普通回归问题。今天的观测有误差，大气系统又是非线性的，所以未来不会只有一条确定路线。对普通用户来说，“明天大概率下雨”已经有用；对防灾、电网和农业来说，更重要的是：极端事件有多大概率？路径会不会偏移？最坏情形在哪里？

传统数值天气预报（NWP）会用集合预报（ensemble forecast）处理这件事：让物理模型从不同初始扰动出发，生成多条可能未来。这个路线可靠，但计算和工程成本很高。

近几年的机器学习天气模型，例如 GraphCast 和 Pangu-Weather，证明了深度学习可以在中期天气预报上非常快、非常强。但很多早期 ML 天气模型偏向确定性预报：给你一张未来天气图，或一条最可能轨迹。问题是，确定性模型在长期预报中容易给出“平均化”的未来，极端结构会被抹平。

所以 GenCast 问的是：AI 天气预报能不能像集合预报一样，生成一组真实、锐利、可评分的未来？

3. Core method

GenCast 是一个用于天气状态的条件扩散模型。

普通扩散模型经常被用来生成图像：从噪声开始，一步步去噪，最后得到一张图。GenCast 把这个思想放到全球天气状态上：给定当前天气和上一时刻天气，模型从一个噪声候选开始，逐步去噪，生成下一时刻可能的天气状态。

关键不是只生成一次，而是重复采样。不同噪声种子会产生不同但合理的未来天气轨迹，于是形成一个集合预报。这样，模型输出的不再是“未来会怎样”的单点答案，而是“未来可能怎样分布”的风险图。

4. Mechanism breakdown

论文中的概率分解很直观。GenCast 建模从初始状态出发的未来天气轨迹：

$P({\bf X}^{1:T} \mid {\bf X}^{0},{\bf X}^{-1}) = \prod_{t=0}^{T-1} P({\bf X}^{t+1} \mid {\bf X}^{t},{\bf X}^{t-1})$

这里， ${\bf X}^{0}$ 和 ${\bf X}^{-1}$ 是当前和上一时刻的天气状态， ${\bf X}^{1:T}$ 是未来一段时间的天气轨迹。公式的意思是：未来 15 天不是一次性猜出来的，而是每一步都根据最近两个天气状态，采样下一个状态，再继续往前滚动。

这种写法重要，因为它把“天气的未来”变成了一个条件概率分布。模型每次从噪声开始去噪，得到一个未来样本；重复多次，就得到一组未来样本。

另一个可以用来理解的简化式是：

${\bf Z}_{n+1}^{t+1} = r_{\theta}({\bf Z}_{n}^{t+1}, {\bf X}^{t}, {\bf X}^{t-1}, n)$

这不是要背的论文公式，而是一个机制直觉：去噪网络 $r_{\theta}$ 在第 $n$ 个去噪步骤中，把带噪声的候选未来 ${\bf Z}_{n}^{t+1}$ ，结合当前天气 ${\bf X}^{t}$ 和上一时刻 ${\bf X}^{t-1}$ ，推向更合理的未来天气状态。

5. How to read the experiments?

Nature 摘要给出的核心结果是：GenCast 在论文评估的 1,320 个变量、时效和垂直层目标中，有 97.2% 的目标优于 ECMWF 的 ENS 集合预报。论文还强调了三个应用方向：极端天气、热带气旋路径和风电预测。

这类比较不能只看“平均误差”。概率预报要看分布是否合理，所以论文使用 CRPS 等概率评分。CRPS 可以粗略理解为：预测分布离真实结果有多远。一个好的集合预报既要校准，也要锐利。

校准性（calibration）意味着：如果模型说某类事件有 20% 概率，它长期看就应该接近 20%。锐度（sharpness）意味着：每条样本轨迹要像真实天气状态，而不是一团模糊平均图。

GenCast 的亮点正在这里：它不是把 50 个模糊平均拼成集合，而是让每个样本都像一个可发生的天气未来。

6. Engineering or research implications

第一，AI for Science 的下一步不是只追求单点准确率，而是要输出可决策的不确定性。天气、蛋白、材料、能源调度都类似：真实问题往往不是“唯一答案”，而是“风险分布”。

第二，生成式模型不只会生成图片和文本。扩散模型也可以用于物理变量场，只要状态、条件和评价指标设计得足够严肃。

第三，速度本身会改变工作流。如果一个模型能更快地产生集合预报，就可能让更多后处理、场景分析和区域校准变得可行。

7. Do not overinterpret

这篇论文不是在宣布传统气象系统已经被 AI 替代。

GenCast 仍然依赖高质量再分析数据和气象业务体系。论文比较也涉及不同 ground truth、初始化方式和评估协议。降水、局地区域、罕见极端事件、长期气候外推和业务部署，都需要更谨慎的验证。

更稳妥的读法是：GenCast 证明了机器学习天气模型可以从“快而准的单一路径”进入“可评分的概率集合预报”。这一步比刷一个更低的 RMSE 更重要，因为它更接近真实决策。

8. One-sentence summary

GenCast 最值得记住的一句话是：AI 天气预报真正有用时，不是只告诉你一个未来，而是给你一组可能未来和它们背后的风险分布。

References

Price et al. Probabilistic weather forecasting with machine learning. Nature 637, 84-90 (2025). https://www.nature.com/articles/s41586-024-08252-9
Lam et al. Learning skillful medium-range global weather forecasting. Science 382, 1416-1421 (2023). https://www.science.org/doi/10.1126/science.adi2336
Bi et al. Accurate medium-range global weather forecasting with 3D neural networks. Nature 619, 533-538 (2023). https://www.nature.com/articles/s41586-023-06185-3
Kochkov et al. Neural general circulation models for weather and climate. Nature 632, 1060-1066 (2024). https://www.nature.com/articles/s41586-024-07744-y

标签

#人工智能 #算法 #神经网络 #深度学习 #机器学习