论文理解【LLM-OR】——【OptMATH】A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling

  • 本文初稿使用 PaperReading-skill 生成。给定论文标题、链接、arXiv/OpenReview 页面、DOI 或本地 PDF,让 Codex 自动完成论文检索、PDF 下载、图表抽取、代码仓库分析,并生成一份适合 Typora 阅读和后续整理的中文论文解读 Markdown 和 PDF,欢迎试用!
  • 前往我的博客阅读本文,无需 CSDN VIP
  • 文章链接:OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling
  • 作者:Hongliang Lu, Zhonglin Xie, Yaoyu Wu, Can Ren, Yuxuan Chen, Zaiwen Wen
  • 机构:Peking University, Beijing International Center for Mathematical Research, School of Mathematical Sciences
  • 代码:optsuite/OptMATH
  • 项目页:OptMATH Project
  • 发表:ICML 2025, PMLR 267:40769-40802
  • 领域:LLM-OR
  • 一句话总结:使用 LLM 进行 OR 问题建模时,现有方法受限于高质量训练数据稀缺、合成数据复杂度和一致性不足,难以泛化到复杂长文本优化问题;本文提出 OptMATH,从已有 MF/PD 出发反向生成 NL,再通过 AutoFormulator 正向建模和最优值匹配 rejection sampling 验证语义一致性,构建 OptMATH-Train 与 OptMATH-Bench,并通过 SFT/LoRA 训练 AutoFormulator,显著提升了 0.5B–32B 模型在 NL4OPT、MAMO 和 OptMATH-Bench 上的优化建模准确率

  • 摘要:尽管大语言模型发展迅速,一个根本挑战仍然存在:缺乏高质量的优化建模数据集,这阻碍了 LLM 从自然语言描述(NL)中鲁棒地建模实际优化问题,也导致学习式方法泛化困难。为了解决这些挑战,我们提出了 OptMATH —— 一种可扩展的高质量数据集合成框架。该框架从带有数学公式(MF)的人工整理种子数据出发,自动生成复杂度可控的问题数据(PD),然后使用反向翻译步骤获得 NL,并结合前向建模结合和拒绝采样法来验证NL与PD的一致性。被接受的样本对质量较高,构成 OptMATH 的训练部分。随后,一组被拒绝的样本对被识别并进一步过滤,并构成新的优化建模 Benchmark,其中包含长度远长于 NL4OPT 和 MAMO 的困难实例。通过大量实验,作者证明在 OptMATH 上训练的 0.5B 到 32B 参数规模模型,在多个建模 Benchmark 上取得更优结果,从而验证了该方法的有效性和可扩展性

1. 背景

  • 本文研究优化问题的自动建模与编程,以减轻对人类专家的严重依赖。具体而言,这类问题要求输入一段自然语言描述的问题(如配送货、生产规划等问题),要求模型或系统完成运筹学建模,并生成问题求解代码,中间常需要显式写出数学公式 (MF)。
    min ⁡ x g ( x ) ,  s.t.  c i ( x ) = 0 , i ∈ E , c i ( x ) ≥ 0 , i ∈ I , \begin{array}{ll} \min _{\mathbf{x}} & g(\mathbf{x}), \\ \text { s.t. } & c_{i}(\mathbf{x})=0, \quad i \in \mathcal{E}, \\ & c_{i}(\mathbf{x}) \geq 0, \quad i \in \mathcal{I}, \end{array} minx s.t. g(x),ci(x)=0,iE,ci(x)0,iI, 这里的难点不是 “会不会算最优解”,而是 “能不能把题意里的变量、目标、约束、整数性、Big-M 逻辑、业务条件翻译成正确模型”。这类任务比小学数学题更开放:同一个业务问题可能有多种等价建模方式,约束也常隐含在上下文里
  • 针对该任务,当前主要存在基于提示和基于微调的两类方法:
    1. 基于提示的建模prompt-based modeling:通过为 GPT-4o 等大规模预训练 LLM 精心设计建模 Prompt 来工作,相关方法包括 OptiTreePaMOPOptiMUS 等。这类方法的重点在于通过引入树、图、多智能体等设计,将 “复杂问题描述上下文 -> 严格式要求代码” 的端到端生成过程拆分为多个子过程,从而降低各环节难度,并使各环节的 prompt 更具针对性和指向性

      这类方法的优势是不改模型参数,工程上容易迭代;弱点是很依赖基础模型本身的优化建模知识,复杂长题中容易漏约束或变量类型

    2. 基于微调的建模fine-tuned LLM modeling agents:通过构造大规模运筹学及建模知识对 LLM 进行微调,形成专用的建模语言模型,如 ORLMStep-Opt 等。这类方法的重点在于设计数据构方法和错误过滤方法,实现多样、正确、难度可控的高质量数据集。此外,从 2025 年开始也逐步出现了基于 RL post-training 的方法,如 SIRL 将 OR 建模求解视作 RLVR 任务解决、LLMOPT 使用在 sft 后使用 KTO 后训练减弱模型幻觉等

      通过进行针对性训练,基于微调的方法往往可以用更小参数量的模型达成和通用大模型相似的性能,但问题在于真实高质量优化建模样本少,人工标注贵,简单数据又无法覆盖长上下文、复杂约束和跨领域表达

2. 本文方法

  • OptMATH 通过三元组语义对齐(NL、MF、PD)进行数据生成及严格验证,解决优化建模中数据稀缺这一关键挑战。为了形式化建模问题,本文首先进行定义:

    1. NL:Natural Language description,指用户或实际业务场景中给出的优化问题文本描述,通常包含目标、资源限制、需求约束和业务背景等信息
    2. MF:Mathematical formulation,指不带具体实例数值、抽象和通用的数学建模结构,通常包括集合、参数、变量、目标函数和约束。描述 “某类问题应该如何建模”,而非某个具体实例的数值模型
    3. PD:Problem Data,定义为已经填入具体数值,可以调用求解器来获得最优解的某种建模形式。可以是数学表达式、LP/MPS文件或任何其他可直接用于求解器的格式(如 gurobi 代码)。在 OptMATH 框架的不同阶段,作者使用了不同形式的 PD

      .lp 文件是一种优化模型文件格式,通常由目标函数、约束、变量上下界、整数或二进制变量声明等信息组成,用来把线性规划、整数规划、混合整数规划等模型写成求解器可读的文本。Gurobi、CPLEX、SCIP 等求解器都能读取 .lp 文件。示例如下

      Maximize
        profit: 50 table + 30 chair
      
      Subject To
        carpentry_time: 4 table + 3 chair <= 240
        painting_time: 2 table + 1 chair <= 100
      
      Bounds
        table >= 0
        chair >= 0
      
      Generals
        table
        chair
      
      End
      
  • OptMATH 可以理解为一个数据飞轮,分为如下图所示的三个阶段:
    在这里插入图片描述

    1. 逆向数据合成:首先收集 (MF, PD) \text{(MF, PD)} (MF, PD) 数据对,再使用基于 LLM 的反向翻译方法生成 NL \text{NL} NL。其中 PD \text{PD} PD 均使用 LP 文件形式,数据对来源有两个
      • MIPLIB 和 netlib 等具有挑战性 Benchmark 的 LP/MPS 文件
      • 超过50个由专家精选的种子问题生成器,涵盖多种优化场景。这些生成器能够生成难度可调控的海量参数化数据
    2. 前向建模和验证:使用经过训练的 AutoFormulator 将 NL \text{NL} NL 转换为 PD ′ \text{PD}' PD(AutoFormulator 直接生成求解器代码,然后导出为 LP 文件)。接下来使用拒绝抽样策略,仅保留原始 PD \text{PD} PD 与生成 PD ′ \text{PD}' PD 优化目标值完全匹配的实例,保证语义等价性
    3. 模型微调:对步骤 2 接受的高质量样本进一步使用数据增强策略,包括问题改写、语义替换、约束扩展和数值增强,以提升数据集多样性和覆盖范围,组成 OptMATH-Train 数据集,然后用 SFT 微调基座模型得到 AutoFormulator
  • AutoFormulator 专门用于把优化问题的自然语言描述转成数学模型和求解代码,它是一个经过微调的 LLM,其训练目标为:
    max ⁡ θ   E ( NL,MF,PD ) ∼ D [ Q ( NL,MF,PD ) ( MF’,PD’ ) ] s.t.  ( MF’,PD’ ) = A θ ( prompt M ( NL ) ) \begin{aligned} &\max_{\theta}\ \mathbb{E}_{(\text{NL,MF,PD})\sim D}\left[Q_{(\text{NL,MF,PD})}(\text{MF',PD'})\right]\\ &\text{s.t. } (\text{MF',PD'})=A_{\theta}(\text{prompt}_M(\text{NL})) \end{aligned} θmax E(NL,MF,PD)D[Q(NL,MF,PD)(MF’,PD’)]s.t. (MF’,PD’)=Aθ(promptM(NL)) 其中 Q Q Q 衡量生成的 MF’,PD’ \text{MF',PD'} MF’,PD’ 是否和原始三元组一致, prompt M \text{prompt}_M promptM 是一个将 NL 转化为 MF 和 PD 的建模提示模板

2.1 复杂度可控的 PD 生成

  • 整个数据合成框架的核心之一就是生成优化问题实例,也就是生成 PD \text{PD} PD 问题示例数据。这里不是简单让 LLM 随机编题,而是:
    1. 人工从各类优化期刊和网站中精选了 50 多个种子问题类别
    2. 为每类问题写参数化实例生成器 G i ( Θ ) G_i(\Theta) Gi(Θ),其中 Θ \Theta Θ 可以控制问题的规模和难度,如集合规模、参数范围、变量类型、约束类型和数量等。每个问题生成器 G i G_i Gi 对应一类数学建模 MF i \text{MF}_i MFi
    3. 用反馈机制让 LLM 迭代调整生成器配置,控制生成实例的复杂度、可行性和求解时间,从而得到规模、复杂度和可解性均可控的大规模优化实例

2.1.1 复杂度评估

  • 作者给每个问题数据 PD \text{PD} PD 定义复杂度分数:
    S ( P D ) = α b i n N b i n + α i n t N i n t + α c o n t N c o n t + β l i n N l i n + β i n d i c N i n d i c + β q u a d N q u a d + β g e n N g e n + γ B i g M f B i g M + δ e x p r L e x p r ‾ \begin{aligned} S(\mathrm{PD})= & \alpha_{\mathrm{bin}} N_{\mathrm{bin}}+\alpha_{\mathrm{int}} N_{\mathrm{int}}+\alpha_{\mathrm{cont}} N_{\mathrm{cont}} \\ & +\beta_{\mathrm{lin}} N_{\mathrm{lin}}+\beta_{\mathrm{indic}} N_{\mathrm{indic}}+\beta_{\mathrm{quad}} N_{\mathrm{quad}} +\beta_{\mathrm{gen}} N_{\mathrm{gen}} \\ & +\gamma_{\mathrm{BigM}} f_{\mathrm{BigM}}+\delta_{\mathrm{expr}} \overline{L_{\mathrm{expr}}} \end{aligned} S(PD)=αbinNbin+αintNint+αcontNcont+βlinNlin+βindicNindic+βquadNquad+βgenNgen+γBigMfBigM+δ
内容概要:本文深入研究了基于最优滑模控制的永磁同步电机(PMSM)调速系统模型,重点利用Simulink工具搭建并仿真了该控制系统的动态响应特性。文章系统阐述了最优滑模控制策略的设计原理,突出其在削弱传统滑模控制固有抖振现象、增强系统鲁棒性方面的显著优势。通过与传统滑模控制方法的对比实验,充分验证了所提出方法在调速精度、抗外部干扰能力以及动态响应速度等方面的优越性能。研究内容涵盖PMSM数学建模、滑模面构造、最优控制律推导、Lyapunov稳定性分析、参数整定及Simulink仿真验证等完整环节,形成了一套严谨的控制算法设计与实现流程。; 适合人群:具备自动控制原理、现代控制理论基础和MATLAB/Simulink仿真操作能力,从事电机驱动控制、电力电子与电力传动、运动控制或自动化等相关领域研究的工程技术人员及高校研究生。; 使用场景及目标:① 深入掌握滑模控制理论及其在高性能电机调速系统中的具体应用方法;② 学习如何设计并实现能够有效抑制抖振的最优滑模控制器,以提升系统整体鲁棒性和控制品质;③ 利用Simulink平台独立完成从理论建模到仿真验证的全过程,服务于科研课题、课程设计或实际工程项目。; 阅读建议:建议读者务必结合MATLAB/Simulink环境动手复现文中模型,重点关注滑模切换面的设计准则、控制律的数学推导过程以及控制器参数的调节规律,并通过施加不同的负载扰动、设定多种转速指令等方式全面测试系统的动态与稳态性能,从而深刻理解最优滑模控制的核心机理与工程应用价值。
内容概要:本文提出了一种基于数据驱动的Koopman算子与递归神经网络(RNN)相结合的模型线性化方法,旨在解决纳米定位系统中因强非线性、迟滞和蠕变效应导致的建模困难问题。该方法通过Koopman算子将非线性动态系统映射至高维线性空间,利用RNN学习系统的时间序列演化特征,从而实现对复杂动态行为的精确建模与预测,并进一步集成于模型预测控制(MPC)框架中,显著提升了纳米定位系统的控制精度、动态响应能力与运行稳定性。整个算法体系在Matlab平台上完成代码实现与仿真实验验证,展示了良好的控制性能与工程应用潜力。; 适合人群:具备控制理论、非线性系统建模、机器学习及智能控制基础,从事精密仪器控制、高端制造装备研发、自动化系统设计等领域的研究生、科研人员及工程技术开发者。; 使用场景及目标:①应对扫描探针显微镜、光刻机、超精密加工平台等纳米级定位设备中的非线性建模挑战;②提升高精度运动系统的实时预测控制性能,抑制迟滞与蠕变带来的定位误差;③为数据驱动的非线性系统线性化与先进控制策略(如MPC)的融合提供可复现、可扩展的技术范例。; 阅读建议:建议读者结合提供的Matlab代码,深入理解Koopman观测矩阵构造、RNN网络训练流程及MPC控制器设计之间的协同机制,重点关注数据预处理、特征提取、模型训练与闭环控制仿真的完整链路,以便在相似高精度控制系统中进行迁移与优化应用。
内容概要:本文围绕“主辅助服务市场出清模型研究【旋转备用】”展开,基于Matlab代码实现了电力系统中旋转备用辅助服务的市场出清机制建模与求解,属于SCI论文复现类科研仿真资源。研究聚焦于旋转备用资源的优化调度与定价逻辑,通过Matlab编程构建数学模型并进行数值求解,深入揭示电力市场中辅助服务的运行机理。该资源作为一系列电力系统、微电网优化、储能调度、路径规划等Matlab/Simulink仿真资料的重要组成部分,提供了可复用的代码框架与模型参考,有助于推动相关领域的科研进展和技术验证。; 适合人群:面向具备电力系统、自动化、能源优化等相关学科背景,熟悉Matlab编程环境,从事电力市场、可再生能源集成、智能电网等方向科研或工程仿真的研究生、高校教师、科研人员及电力行业工程师。; 使用场景及目标:① 学习并复现电力系统辅助服务市场中旋转备用的出清模型,掌握其优化建模方法;② 应用Matlab工具开展微电网、储能系统、电力市场出清等问题的建模与仿真研究;③ 借助提供的完整代码资源加速科研项目推进,提升论文复现效率与学术成果产出能力。; 阅读建议:建议结合电力市场基本理论与优化算法知识进行学习,重点关注模型构建的数学逻辑、约束条件设定及Matlab代码实现细节,同时可参考文中列出的其他相关仿真资源进行横向拓展研究,充分利用所附网盘资料开展实践验证与对比分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云端FFF

所有博文免费阅读,求打赏鼓励~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值