FormalMATH Benchmark：推动AI极限的形式化数学基准

最新推荐文章于 2026-06-18 14:16:48 发布

原创

最新推荐文章于 2026-06-18 14:16:48 发布 · 936 阅读

标签

#人工智能

项目主页：https://spherelab.ai/FormalMATH/

GitHub: https://github.com/Sphere-AI-Lab/FormalMATH-Bench

Hugging Face：https://huggingface.co/SphereLab

论文：https://arxiv.org/pdf/2505.02735

随着大语言模型（LLMs）在自然语言处理和代码生成等任务中取得突破，形式化数学（formalized mathematics）逐渐成为测试其逻辑推理极限的关键任务之一。

相较于自然语言处理的模糊语义容忍度与代码生成的工程实用性，形式化数学以绝对的逻辑严密性构建起测试大语言模型推理能力的 “试金石”。这一领域要求模型将数学命题转化为精确的形式化语言，并在严格的公理系统内完成推导，任何语义歧义或推理断层都会导致证明失败。与传统任务不同，形式化数学的验证过程不依赖主观解释，而是由形式验证工具基于符号系统的一致性标准进行判定。这种 “零容错” 的结构化表达需求，使得模型在多步推理链条构建、抽象符号关系维护、复杂证明策略规划等方面的缺陷被彻底暴露。当前，构建包含高阶逻辑推理、跨领域知识迁移、反直觉证明路径探索的新型基准，已成为突破大语言模型数学推理能力瓶颈的重要方向。

5月5日，2077AI 开源社区联合香港中文大学、西湖大学、M-A-P、浙江大学、Max Planck 等研究机构，共同发布了 FormalMATH，这是目前 Lean4 领域最大规模、覆盖最广的形式化数学基准库。FormalMATH 包含5560道经严格验证的数学命题，题型涵盖奥林匹克竞赛与大学本科阶段相关内容，包括代数、微积分、数论、离散数学等十二个子领域。

FormalMATH 联合研究机构及单位

团队的系统性评估显示，即使是当前最先进的定理证明大语言模型，在此基准上，Pass@32成功率都仅为16.46%，反映出现有自动定理证明系统在多领域、高难度问题上的性能瓶颈。

1. 形式化数学自动推理的挑战

在追求通用数学推理能力的过程中，市面上已经有若干用于测试 LLM 的自动定理证明性能的基准集。但随着模型在这些测试集上快速“刷分”，它们逐渐暴露出规模和挑战性不足的问题。这促使研究团队重新思考自动推理评估体系的设计标准，特别是对于跨领域泛化、复杂逻辑结构处理能力等方面的能力考核。

形式化数学推理（Formal Mathematical Reasoning, FMR）要求模型在严格的逻辑系统（如Lean4）框架内，对数学命题进行严密的形式化表达并成功完成自动证明。这一任务对于AI系统的推理、泛化和符号化操作能力提出极高要求。

当前已有诸如 MiniF2F（2

最低0.47元/天解锁文章