项目主页:https://spherelab.ai/FormalMATH/
GitHub: https://github.com/Sphere-AI-Lab/FormalMATH-Bench
Hugging Face:https://huggingface.co/SphereLab
论文:https://arxiv.org/pdf/2505.02735
随着大语言模型(LLMs)在自然语言处理和代码生成等任务中取得突破,形式化数学(formalized mathematics)逐渐成为测试其逻辑推理极限的关键任务之一。
相较于自然语言处理的模糊语义容忍度与代码生成的工程实用性,形式化数学以绝对的逻辑严密性构建起测试大语言模型推理能力的 “试金石”。这一领域要求模型将数学命题转化为精确的形式化语言,并在严格的公理系统内完成推导,任何语义歧义或推理断层都会导致证明失败。与传统任务不同,形式化数学的验证过程不依赖主观解释,而是由形式验证工具基于符号系统的一致性标准进行判定。这种 “零容错” 的结构化表达需求,使得模型在多步推理链条构建、抽象符号关系维护、复杂证明策略规划等方面的缺陷被彻底暴露。当前,构建包含高阶逻辑推理、跨领域知识迁移、反直觉证明路径探索的新型基准,已成为突破大语言模型数学推理能力瓶颈的重要方向。
5月5日,2077AI 开源社区联合香港中文大学、西湖大学、M-A-P、浙江大学、Max Planck 等研究机构,共同发布了 FormalMATH,这是目前 Lean4 领域最大规模、覆盖最广的形式化数学基准库。FormalMATH 包含5560道经严格验证的数学命题,题型涵盖奥林匹克竞赛与大学本科阶段相关内容,包括代数、微积分、数论、离散数学等十二个子领域。

FormalMATH 联合研究机构及单位
团队的系统性评估显示,即使是当前最先进的定理证明大语言模型,在此基准上,Pass@32成功率都仅为16.46%,反映出现有自动定理证明系统在多领域、高难度问题上的性能瓶颈。
1. 形式化数学自动推理的挑战
在追求通用数学推理能力的过程中,市面上已经有若干用于测试 LLM 的自动定理证明性能的基准集。但随着模型在这些测试集上快速“刷分”,它们逐渐暴露出规模和挑战性不足的问题。这促使研究团队重新思考自动推理评估体系的设计标准,特别是对于跨领域泛化、复杂逻辑结构处理能力等方面的能力考核。
形式化数学推理(Formal Mathematical Reasoning, FMR)要求模型在严格的逻辑系统(如Lean4)框架内,对数学命题进行严密的形式化表达并成功完成自动证明。这一任务对于AI系统的推理、泛化和符号化操作能力提出极高要求。
当前已有诸如 MiniF2F(2


922

被折叠的 条评论
为什么被折叠?



