中科院开源 PPTAgent:EMNLP + ACL 双顶会,一句话生成专业 PPT,两阶段反思式 Agent + 9B 微调模型 + 20+ 工具沙箱!

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

中科院开源 PPTAgent:EMNLP + ACL 双顶会,一句话生成专业 PPT,两阶段反思式 Agent + 9B 微调模型 + 20+ 工具沙箱!

💡 中科院 ICIP 出品,PPTAgent(EMNLP 2025)+ DeepPresenter(ACL 2026)双顶会工作。两阶段编辑式方法模拟人类工作流:分析参考 PPT → 提取功能类型和内容 Schema → 迭代生成编辑动作 → 反思修正。DeepPresenter-9B 专属微调模型显著超越开源模型,20+ 工具沙箱隔离执行,CLI 一行命令生成 PPTX,支持 WebUI/Docker/MCP/OpenClaw 集成,可选 Tavily 搜索 + MinerU 解析 + 文生图增强。

在这里插入图片描述

📌 目录


1. PPTAgent 是什么?

PPTAgent 是中国科学院软件研究所 ICIP 实验室出品的智能 PPT 生成 Agent 框架,核心项目名 DeepPresenter

一句话总结

PPTAgent / DeepPresenter = 中科院 ICIP 智能 PPT 生成 Agent
  = EMNLP 2025 + ACL 2026 双顶会
  = 两阶段反思式生成(分析→编辑→反思→修正)
  = DeepPresenter-9B 专属微调模型
  = 20+ 工具沙箱隔离执行
  = CLI 一行生成 PPTX
  = WebUI + Docker + MCP Server + OpenClaw 集成
  = Tavily 搜索 + MinerU 解析 + 文生图增强
  = 支持附件(PDF/Excel)+ 离线模式
  = PPTEval 三维评估(Content/Design/Coherence)
  = Freeform 自由设计 + 模板生成双模式
  = 不只是文本到幻灯片,是完整 Agent 工作流

为什么 PPT 生成这么难?

传统方法的困境:
  ❌ 只关注内容质量,忽视视觉吸引力和结构一致性
  ❌ 文本→幻灯片的简单映射,缺乏设计感
  ❌ 无反思修正,一次性生成质量不稳定
  ❌ 没有统一评估标准

PPTAgent 的解法:
  ✅ 模拟人类工作流:先分析参考 PPT,再迭代编辑
  ✅ 两阶段方法:分析阶段 + 生成阶段(含反思)
  ✅ 20+ 工具沙箱:搜索/解析/截图/图表/文生图...
  ✅ PPTEval 三维评估:内容 + 设计 + 一致性
  ✅ 9B 微调模型:专为 PPT 任务优化
  ✅ 环境接地反思:基于真实渲染结果修正

2. PPTAgent → DeepPresenter 进化史

时间里程碑说明
2025-01🔓 PPTAgent 开源初始版本,两阶段编辑式方法
2025-05⭐ 1000 Stars社区认可
2025-08🎉 EMNLP 2025 接收PPTAgent 论文被接收
2025-09🛠️ MCP Server 支持可通过 MCP 协议调用
2025-12🔥 DeepPresenter 发布重大升级:深度研究、自由设计、资产创建、文生图、沙箱
2026-01🆕 PPTX 导出 + 离线模式自由设计和模板生成均支持 PPTX 导出
2026-03🤗 模型发布DeepPresenter-9B + 任务集上线 HuggingFace
2026-04🎉 ACL 2026 接收DeepPresenter 论文被接收

DeepPresenter vs PPTAgent 五大升级

1️⃣ 深度研究集成(Deep Research)
   → 自动搜索网络信息,丰富内容深度

2️⃣ 自由形式视觉设计(Free-Form Visual Design)
   → 不受模板限制,自由布局和风格

3️⃣ 自主资产创建(Autonomous Asset Creation)
   → 自动生成图表/截图/图标等视觉元素

4️⃣ 文本到图像生成(Text-to-Image)
   → 可选配文生图模型,提升视觉质量

5️⃣ Agent 环境 + 20+ 工具沙箱
   → 隔离执行,安全可靠
   → 搜索/解析/截图/图表/代码执行等

3. 核心架构:两阶段反思式生成

阶段一:分析(Analysis)

输入:参考 PPT 文件
  ↓
1. 提取幻灯片级功能类型(Functional Types)
   → 封面页/目录页/内容页/过渡页/总结页...
  ↓
2. 提取内容 Schema
   → 每种功能类型的结构模式
   → 标题/正文/图片/图表的布局位置
  ↓
输出:功能类型库 + 内容 Schema 库

阶段二:生成(Generation)——含反思循环

输入:用户需求 + 参考模板
  ↓
1. 起草大纲(Outline Drafting)
   → 根据需求规划幻灯片结构
   → 选择合适的功能类型和 Schema
  ↓
2. 迭代编辑(Iterative Editing)
   → 选择参考幻灯片
   → 生成编辑动作(修改文本/替换图片/调整布局)
   → 在沙箱中渲染预览
  ↓
3. 环境接地反思(Environment-Grounded Reflection)⭐
   → 基于真实渲染结果评估
   → 发现问题 → 修正编辑动作
   → 重复直到满意
  ↓
输出:最终 PPT(.pptx 格式)

反思机制详解

传统方法:
  Prompt → 一次性生成 → 结束
  (没有修正机会,质量不稳定)

PPTAgent 方法:
  Prompt → 生成初版 → 渲染预览 → 反思评估
    ↑                                    ↓
    └──── 修正编辑动作 ←─── 发现问题 ←──┘
  
  关键:反思基于真实渲染结果(环境接地)
  而不是基于"想象中的效果"
  → 修正是有据可依的,不是盲目猜测

4. DeepPresenter-9B 微调模型

为什么需要微调模型?

通用大模型的问题:
  ❌ 不理解 PPT 特有的编辑操作
  ❌ 生成的编辑动作语法错误
  ❌ 对幻灯片布局和设计缺乏直觉
  ❌ 反思质量不稳定

DeepPresenter-9B 的优势:
  ✅ 专为 PPT 任务微调
  ✅ 理解编辑操作语法和语义
  ✅ 具备幻灯片设计直觉
  ✅ 反思修正更精准
  ✅ 显著超越现有开源模型(官方实验验证)

模型下载

格式HuggingFaceModelScope
GGUF(量化)Forceless/DeepPresenter-9B-GGUFforceless/DeepPresenter-9B-GGUF
全量权重Forceless/DeepPresenter-9Bforceless/DeepPresenter-9B
推荐使用 GGUF 量化版本:
  → 更小体积,更快推理
  → 配合 llama.cpp 本地运行
  → CLI 自动下载和配置

5. 快速上手部署

方式一:CLI(⭐ 最快上手 + OpenClaw 集成)

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 首次交互式配置
uvx pptagent onboard

# 生成 PPT
uvx pptagent generate "Single Page with Title: Hello World" -o hello.pptx

# 带附件生成
uvx pptagent generate "Q4 Report" \
  -f data.xlsx \
  -f charts.pdf \
  -p "10-12" \
  -o report.pptx

CLI 命令一览:

命令说明
pptagent onboard交互式配置向导
pptagent generate生成 PPT
pptagent config查看当前配置
pptagent reset重置配置
pptagent serve启动本地推理服务

方式二:从源码构建(开发调试)

uv pip install -e .
playwright install-deps
playwright install chromium
npm install --prefix deeppresenter/html2pptx
modelscope download forceless/fasttext-language-id

# Docker 镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host

# 启动 WebUI
python webui.py

方式三:Docker Compose(服务器部署)

# 拉取镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host

# 启动
docker compose up -d

# 访问 http://localhost:7861

💡 国内用户可使用 1ms.run 镜像加速:
docker pull docker.1ms.run/forceless/deeppresenter-host

配置文件

# 必须配置
cp deeppresenter/config.yaml.example deeppresenter/config.yaml
cp deeppresenter/mcp.json.example deeppresenter/mcp.json

可选增强服务

服务作用配置方式
Tavily提升搜索质量mcp.json 中设置 TAVILY_API_KEY
MinerU提升 PDF 解析质量mcp.json 中设置 MINERU_API_KEY 或本地部署
文生图模型提升图片生成质量config.yaml 中配置 t2i_model

离线模式

# config.yaml
offline_mode: true  # 避免加载网络依赖工具(如搜索)
# 需本地部署 MinerU(设置 MINERU_API_URL)

⚠️ 注意:不支持 Windows 原生,需使用 WSL


6. 三大生成模式

模式一:Freeform 自由设计

特点:
  → 无模板约束,自由布局
  → Agent 自主决定视觉风格和排版
  → 支持文生图增强
  → 2026-01 起 支持 PPTX 导出

适合:
  → 创意展示
  → 产品介绍
  → 个性化需求

模式二:模板生成

特点:
  → 基于参考 PPT 模板
  → 分析模板的功能类型和 Schema
  → 迭代编辑生成新幻灯片
  → 保持模板风格一致性
  → 2026-01 起 支持 PPTX 导出

适合:
  → 企业标准化汇报
  → 学术报告
  → 需要特定风格的场景

模式三:文档转 PPT

特点:
  → 输入 PDF/Word 等文档
  → 自动提取关键信息
  → 生成结构化 PPT
  → 可附加 Excel 数据

示例:
  pptagent generate "Q4 Report" \
    -f data.xlsx \
    -f charts.pdf \
    -p "10-12" \
    -o report.pptx

适合:
  → 论文/报告转 PPT
  → 数据分析汇报
  → 自动化文档工作流

7. PPTEval 评估框架

三维评估体系

📊 Content(内容质量)
  → 信息准确性
  → 内容完整性
  → 逻辑结构

🎨 Design(设计质量)
  → 视觉吸引力
  → 排版美观度
  → 配色/字体一致性

🔗 Coherence(一致性)
  → 幻灯片间逻辑连贯
  → 风格统一性
  → 过渡自然度

为什么重要?

传统评估:只看文本内容 → 忽视了 PPT 是视觉媒介

PPTEval:三维评估 → 内容 + 设计 + 一致性
  → 更全面地反映 PPT 实际质量
  → 研究论文中的标准化评估工具
  → PPTAgent 在三维上均显著超越现有方法

8. 竞品对比

对比维度PPTAgent/DeepPresenterGammaBeautiful.aiSlidesGPTMarp
出品方中科院 ICIPGammaBeautiful.aiSlidesGPTMarp
学术背书EMNLP 2025 + ACL 2026
开源
Agent 架构反思式 Agent
微调模型DeepPresenter-9B
沙箱环境20+ 工具
反思修正环境接地反思
文档转PPT✅ PDF/Excel/Word✅ Markdown
文生图✅ 可选配
PPTX 导出需插件
MCP 协议
OpenClaw 集成
离线模式
深度研究
自由设计
评估框架PPTEval
价格免费开源免费/付费免费/付费付费免费开源

最大差异化

1. 双顶会学术背书:EMNLP 2025 + ACL 2026
2. 反思式 Agent:基于真实渲染结果修正,不是一次性生成
3. 9B 微调模型:专为 PPT 任务优化,显著超越开源模型
4. 20+ 工具沙箱:搜索/解析/截图/图表/代码执行...
5. PPTEval 三维评估:内容 + 设计 + 一致性
6. MCP + OpenClaw:可集成到 Agent 生态
7. 深度研究:自动搜索网络信息丰富内容
8. 全开源:模型 + 代码 + 评估框架

9. 适用场景与优缺点

✅ 适合场景

📋 学术报告/论文答辩
  → 文档转 PPT,保留核心内容
  → 模板生成保持风格统一

📊 商业汇报/季度报告
  → 附件 Excel 数据自动整合
  → Deep Research 自动搜索行业数据

🎓 教学课件
  → 高中/大学课堂展示
  → 自动生成结构化教学内容

🎨 创意展示/产品介绍
  → Freeform 自由设计
  → 文生图增强视觉效果

🔧 Agent 生态集成
  → OpenClaw 插件调用
  → MCP 协议接入
  → 自动化工作流

🤖 研究实验
  → PPTEval 评估框架
  → 可复现的实验基准

⚠️ 注意事项

1. 不支持 Windows 原生:需使用 WSL
2. 首次配置较复杂:需配置 config.yaml + mcp.json
3. 需 Docker 环境:沙箱功能依赖 Docker
4. 模型推理需 GPU:DeepPresenter-9B 推荐本地 GPU
5. 可选服务需额外申请:Tavily/MinerU API Key
6. 中文场景表现:需验证(案例中有中文示例)
7. macOS CLI 自动安装依赖:Linux 需手动准备

10. 总结与推荐

推荐指数:⭐⭐⭐⭐⭐

维度评分说明
学术⭐⭐⭐⭐⭐EMNLP + ACL 双顶会,学术含金量最高
创新⭐⭐⭐⭐⭐反思式 Agent + 环境接地 + 9B 微调
功能⭐⭐⭐⭐⭐3 种生成模式 + 20+ 工具 + 深度研究
开源⭐⭐⭐⭐⭐代码 + 模型 + 评估框架全开源
易用⭐⭐⭐⭐CLI 一行生成,但配置稍复杂
生态⭐⭐⭐⭐MCP + OpenClaw + Docker + WebUI
部署⭐⭐⭐⭐三种部署方式,但需 WSL/Docker

一句话推荐

如果你需要 AI 自动生成专业 PPT,PPTAgent 是当前学术最强、功能最全的开源方案。

EMNLP + ACL 双顶会背书,反思式 Agent 不是一次性生成而是迭代修正,
9B 微调模型专为 PPT 任务优化,20+ 工具沙箱安全执行,
CLI 一行命令出 PPTX,MCP/OpenClaw 生态集成。

AI PPT 生成,终于有了学术级方案。

📢 项目地址:https://github.com/icip-cas/PPTAgent
📜 PPTAgent:arXiv:2501.03936(EMNLP 2025)
📜 DeepPresenter:arXiv:2602.22839(ACL 2026)
🤗 模型下载:HuggingFace Collections
🛠️ MCP 配置:DOC.md


相关链接


原文链接:https://github.com/icip-cas/PPTAgent

标签:#PPTAgent #DeepPresenter #中科院 #PPT生成 #Agent #EMNLP #ACL #反思式 #MCP #OpenClaw #开源 #微调模型 #沙箱
分类:原创文章

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

guopeiAI

请博主加个火腿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值