中科院开源 PPTAgent:EMNLP + ACL 双顶会,一句话生成专业 PPT,两阶段反思式 Agent + 9B 微调模型 + 20+ 工具沙箱!
💡 中科院 ICIP 出品,PPTAgent(EMNLP 2025)+ DeepPresenter(ACL 2026)双顶会工作。两阶段编辑式方法模拟人类工作流:分析参考 PPT → 提取功能类型和内容 Schema → 迭代生成编辑动作 → 反思修正。DeepPresenter-9B 专属微调模型显著超越开源模型,20+ 工具沙箱隔离执行,CLI 一行命令生成 PPTX,支持 WebUI/Docker/MCP/OpenClaw 集成,可选 Tavily 搜索 + MinerU 解析 + 文生图增强。

📌 目录
- 1. PPTAgent 是什么?
- 2. PPTAgent → DeepPresenter 进化史
- 3. 核心架构:两阶段反思式生成
- 4. DeepPresenter-9B 微调模型
- 5. 快速上手部署
- 6. 三大生成模式
- 7. PPTEval 评估框架
- 8. 竞品对比
- 9. 适用场景与优缺点
- 10. 总结与推荐
1. PPTAgent 是什么?
PPTAgent 是中国科学院软件研究所 ICIP 实验室出品的智能 PPT 生成 Agent 框架,核心项目名 DeepPresenter。
- 🔗 项目地址:https://github.com/icip-cas/PPTAgent
- 📜 PPTAgent 论文:arXiv:2501.03936(EMNLP 2025)
- 📜 DeepPresenter 论文:arXiv:2602.22839(ACL 2026)
一句话总结
PPTAgent / DeepPresenter = 中科院 ICIP 智能 PPT 生成 Agent
= EMNLP 2025 + ACL 2026 双顶会
= 两阶段反思式生成(分析→编辑→反思→修正)
= DeepPresenter-9B 专属微调模型
= 20+ 工具沙箱隔离执行
= CLI 一行生成 PPTX
= WebUI + Docker + MCP Server + OpenClaw 集成
= Tavily 搜索 + MinerU 解析 + 文生图增强
= 支持附件(PDF/Excel)+ 离线模式
= PPTEval 三维评估(Content/Design/Coherence)
= Freeform 自由设计 + 模板生成双模式
= 不只是文本到幻灯片,是完整 Agent 工作流
为什么 PPT 生成这么难?
传统方法的困境:
❌ 只关注内容质量,忽视视觉吸引力和结构一致性
❌ 文本→幻灯片的简单映射,缺乏设计感
❌ 无反思修正,一次性生成质量不稳定
❌ 没有统一评估标准
PPTAgent 的解法:
✅ 模拟人类工作流:先分析参考 PPT,再迭代编辑
✅ 两阶段方法:分析阶段 + 生成阶段(含反思)
✅ 20+ 工具沙箱:搜索/解析/截图/图表/文生图...
✅ PPTEval 三维评估:内容 + 设计 + 一致性
✅ 9B 微调模型:专为 PPT 任务优化
✅ 环境接地反思:基于真实渲染结果修正
2. PPTAgent → DeepPresenter 进化史
| 时间 | 里程碑 | 说明 |
|---|---|---|
| 2025-01 | 🔓 PPTAgent 开源 | 初始版本,两阶段编辑式方法 |
| 2025-05 | ⭐ 1000 Stars | 社区认可 |
| 2025-08 | 🎉 EMNLP 2025 接收 | PPTAgent 论文被接收 |
| 2025-09 | 🛠️ MCP Server 支持 | 可通过 MCP 协议调用 |
| 2025-12 | 🔥 DeepPresenter 发布 | 重大升级:深度研究、自由设计、资产创建、文生图、沙箱 |
| 2026-01 | 🆕 PPTX 导出 + 离线模式 | 自由设计和模板生成均支持 PPTX 导出 |
| 2026-03 | 🤗 模型发布 | DeepPresenter-9B + 任务集上线 HuggingFace |
| 2026-04 | 🎉 ACL 2026 接收 | DeepPresenter 论文被接收 |
DeepPresenter vs PPTAgent 五大升级
1️⃣ 深度研究集成(Deep Research)
→ 自动搜索网络信息,丰富内容深度
2️⃣ 自由形式视觉设计(Free-Form Visual Design)
→ 不受模板限制,自由布局和风格
3️⃣ 自主资产创建(Autonomous Asset Creation)
→ 自动生成图表/截图/图标等视觉元素
4️⃣ 文本到图像生成(Text-to-Image)
→ 可选配文生图模型,提升视觉质量
5️⃣ Agent 环境 + 20+ 工具沙箱
→ 隔离执行,安全可靠
→ 搜索/解析/截图/图表/代码执行等
3. 核心架构:两阶段反思式生成
阶段一:分析(Analysis)
输入:参考 PPT 文件
↓
1. 提取幻灯片级功能类型(Functional Types)
→ 封面页/目录页/内容页/过渡页/总结页...
↓
2. 提取内容 Schema
→ 每种功能类型的结构模式
→ 标题/正文/图片/图表的布局位置
↓
输出:功能类型库 + 内容 Schema 库
阶段二:生成(Generation)——含反思循环
输入:用户需求 + 参考模板
↓
1. 起草大纲(Outline Drafting)
→ 根据需求规划幻灯片结构
→ 选择合适的功能类型和 Schema
↓
2. 迭代编辑(Iterative Editing)
→ 选择参考幻灯片
→ 生成编辑动作(修改文本/替换图片/调整布局)
→ 在沙箱中渲染预览
↓
3. 环境接地反思(Environment-Grounded Reflection)⭐
→ 基于真实渲染结果评估
→ 发现问题 → 修正编辑动作
→ 重复直到满意
↓
输出:最终 PPT(.pptx 格式)
反思机制详解
传统方法:
Prompt → 一次性生成 → 结束
(没有修正机会,质量不稳定)
PPTAgent 方法:
Prompt → 生成初版 → 渲染预览 → 反思评估
↑ ↓
└──── 修正编辑动作 ←─── 发现问题 ←──┘
关键:反思基于真实渲染结果(环境接地)
而不是基于"想象中的效果"
→ 修正是有据可依的,不是盲目猜测
4. DeepPresenter-9B 微调模型
为什么需要微调模型?
通用大模型的问题:
❌ 不理解 PPT 特有的编辑操作
❌ 生成的编辑动作语法错误
❌ 对幻灯片布局和设计缺乏直觉
❌ 反思质量不稳定
DeepPresenter-9B 的优势:
✅ 专为 PPT 任务微调
✅ 理解编辑操作语法和语义
✅ 具备幻灯片设计直觉
✅ 反思修正更精准
✅ 显著超越现有开源模型(官方实验验证)
模型下载
| 格式 | HuggingFace | ModelScope |
|---|---|---|
| GGUF(量化) | Forceless/DeepPresenter-9B-GGUF | forceless/DeepPresenter-9B-GGUF |
| 全量权重 | Forceless/DeepPresenter-9B | forceless/DeepPresenter-9B |
推荐使用 GGUF 量化版本:
→ 更小体积,更快推理
→ 配合 llama.cpp 本地运行
→ CLI 自动下载和配置
5. 快速上手部署
方式一:CLI(⭐ 最快上手 + OpenClaw 集成)
# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 首次交互式配置
uvx pptagent onboard
# 生成 PPT
uvx pptagent generate "Single Page with Title: Hello World" -o hello.pptx
# 带附件生成
uvx pptagent generate "Q4 Report" \
-f data.xlsx \
-f charts.pdf \
-p "10-12" \
-o report.pptx
CLI 命令一览:
| 命令 | 说明 |
|---|---|
pptagent onboard | 交互式配置向导 |
pptagent generate | 生成 PPT |
pptagent config | 查看当前配置 |
pptagent reset | 重置配置 |
pptagent serve | 启动本地推理服务 |
方式二:从源码构建(开发调试)
uv pip install -e .
playwright install-deps
playwright install chromium
npm install --prefix deeppresenter/html2pptx
modelscope download forceless/fasttext-language-id
# Docker 镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host
# 启动 WebUI
python webui.py
方式三:Docker Compose(服务器部署)
# 拉取镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host
# 启动
docker compose up -d
# 访问 http://localhost:7861
💡 国内用户可使用 1ms.run 镜像加速:
docker pull docker.1ms.run/forceless/deeppresenter-host
配置文件
# 必须配置
cp deeppresenter/config.yaml.example deeppresenter/config.yaml
cp deeppresenter/mcp.json.example deeppresenter/mcp.json
可选增强服务
| 服务 | 作用 | 配置方式 |
|---|---|---|
| Tavily | 提升搜索质量 | mcp.json 中设置 TAVILY_API_KEY |
| MinerU | 提升 PDF 解析质量 | mcp.json 中设置 MINERU_API_KEY 或本地部署 |
| 文生图模型 | 提升图片生成质量 | config.yaml 中配置 t2i_model |
离线模式
# config.yaml
offline_mode: true # 避免加载网络依赖工具(如搜索)
# 需本地部署 MinerU(设置 MINERU_API_URL)
⚠️ 注意:不支持 Windows 原生,需使用 WSL
6. 三大生成模式
模式一:Freeform 自由设计
特点:
→ 无模板约束,自由布局
→ Agent 自主决定视觉风格和排版
→ 支持文生图增强
→ 2026-01 起 支持 PPTX 导出
适合:
→ 创意展示
→ 产品介绍
→ 个性化需求
模式二:模板生成
特点:
→ 基于参考 PPT 模板
→ 分析模板的功能类型和 Schema
→ 迭代编辑生成新幻灯片
→ 保持模板风格一致性
→ 2026-01 起 支持 PPTX 导出
适合:
→ 企业标准化汇报
→ 学术报告
→ 需要特定风格的场景
模式三:文档转 PPT
特点:
→ 输入 PDF/Word 等文档
→ 自动提取关键信息
→ 生成结构化 PPT
→ 可附加 Excel 数据
示例:
pptagent generate "Q4 Report" \
-f data.xlsx \
-f charts.pdf \
-p "10-12" \
-o report.pptx
适合:
→ 论文/报告转 PPT
→ 数据分析汇报
→ 自动化文档工作流
7. PPTEval 评估框架
三维评估体系
📊 Content(内容质量)
→ 信息准确性
→ 内容完整性
→ 逻辑结构
🎨 Design(设计质量)
→ 视觉吸引力
→ 排版美观度
→ 配色/字体一致性
🔗 Coherence(一致性)
→ 幻灯片间逻辑连贯
→ 风格统一性
→ 过渡自然度
为什么重要?
传统评估:只看文本内容 → 忽视了 PPT 是视觉媒介
PPTEval:三维评估 → 内容 + 设计 + 一致性
→ 更全面地反映 PPT 实际质量
→ 研究论文中的标准化评估工具
→ PPTAgent 在三维上均显著超越现有方法
8. 竞品对比
| 对比维度 | PPTAgent/DeepPresenter | Gamma | Beautiful.ai | SlidesGPT | Marp |
|---|---|---|---|---|---|
| 出品方 | 中科院 ICIP | Gamma | Beautiful.ai | SlidesGPT | Marp |
| 学术背书 | EMNLP 2025 + ACL 2026 | ❌ | ❌ | ❌ | ❌ |
| 开源 | ✅ | ❌ | ❌ | ❌ | ✅ |
| Agent 架构 | ✅ 反思式 Agent | ❌ | ❌ | ❌ | ❌ |
| 微调模型 | ✅ DeepPresenter-9B | ❌ | ❌ | ❌ | ❌ |
| 沙箱环境 | ✅ 20+ 工具 | ❌ | ❌ | ❌ | ❌ |
| 反思修正 | ✅ 环境接地反思 | ❌ | ❌ | ❌ | ❌ |
| 文档转PPT | ✅ PDF/Excel/Word | ✅ | ✅ | ❌ | ✅ Markdown |
| 文生图 | ✅ 可选配 | ✅ | ✅ | ❌ | ❌ |
| PPTX 导出 | ✅ | ✅ | ✅ | ✅ | 需插件 |
| MCP 协议 | ✅ | ❌ | ❌ | ❌ | ❌ |
| OpenClaw 集成 | ✅ | ❌ | ❌ | ❌ | ❌ |
| 离线模式 | ✅ | ❌ | ❌ | ❌ | ✅ |
| 深度研究 | ✅ | ❌ | ❌ | ❌ | ❌ |
| 自由设计 | ✅ | ✅ | ✅ | ❌ | ✅ |
| 评估框架 | ✅ PPTEval | ❌ | ❌ | ❌ | ❌ |
| 价格 | 免费开源 | 免费/付费 | 免费/付费 | 付费 | 免费开源 |
最大差异化
1. 双顶会学术背书:EMNLP 2025 + ACL 2026
2. 反思式 Agent:基于真实渲染结果修正,不是一次性生成
3. 9B 微调模型:专为 PPT 任务优化,显著超越开源模型
4. 20+ 工具沙箱:搜索/解析/截图/图表/代码执行...
5. PPTEval 三维评估:内容 + 设计 + 一致性
6. MCP + OpenClaw:可集成到 Agent 生态
7. 深度研究:自动搜索网络信息丰富内容
8. 全开源:模型 + 代码 + 评估框架
9. 适用场景与优缺点
✅ 适合场景
📋 学术报告/论文答辩
→ 文档转 PPT,保留核心内容
→ 模板生成保持风格统一
📊 商业汇报/季度报告
→ 附件 Excel 数据自动整合
→ Deep Research 自动搜索行业数据
🎓 教学课件
→ 高中/大学课堂展示
→ 自动生成结构化教学内容
🎨 创意展示/产品介绍
→ Freeform 自由设计
→ 文生图增强视觉效果
🔧 Agent 生态集成
→ OpenClaw 插件调用
→ MCP 协议接入
→ 自动化工作流
🤖 研究实验
→ PPTEval 评估框架
→ 可复现的实验基准
⚠️ 注意事项
1. 不支持 Windows 原生:需使用 WSL
2. 首次配置较复杂:需配置 config.yaml + mcp.json
3. 需 Docker 环境:沙箱功能依赖 Docker
4. 模型推理需 GPU:DeepPresenter-9B 推荐本地 GPU
5. 可选服务需额外申请:Tavily/MinerU API Key
6. 中文场景表现:需验证(案例中有中文示例)
7. macOS CLI 自动安装依赖:Linux 需手动准备
10. 总结与推荐
推荐指数:⭐⭐⭐⭐⭐
| 维度 | 评分 | 说明 |
|---|---|---|
| 学术 | ⭐⭐⭐⭐⭐ | EMNLP + ACL 双顶会,学术含金量最高 |
| 创新 | ⭐⭐⭐⭐⭐ | 反思式 Agent + 环境接地 + 9B 微调 |
| 功能 | ⭐⭐⭐⭐⭐ | 3 种生成模式 + 20+ 工具 + 深度研究 |
| 开源 | ⭐⭐⭐⭐⭐ | 代码 + 模型 + 评估框架全开源 |
| 易用 | ⭐⭐⭐⭐ | CLI 一行生成,但配置稍复杂 |
| 生态 | ⭐⭐⭐⭐ | MCP + OpenClaw + Docker + WebUI |
| 部署 | ⭐⭐⭐⭐ | 三种部署方式,但需 WSL/Docker |
一句话推荐
如果你需要 AI 自动生成专业 PPT,PPTAgent 是当前学术最强、功能最全的开源方案。
EMNLP + ACL 双顶会背书,反思式 Agent 不是一次性生成而是迭代修正,
9B 微调模型专为 PPT 任务优化,20+ 工具沙箱安全执行,
CLI 一行命令出 PPTX,MCP/OpenClaw 生态集成。
AI PPT 生成,终于有了学术级方案。
📢 项目地址:https://github.com/icip-cas/PPTAgent
📜 PPTAgent:arXiv:2501.03936(EMNLP 2025)
📜 DeepPresenter:arXiv:2602.22839(ACL 2026)
🤗 模型下载:HuggingFace Collections
🛠️ MCP 配置:DOC.md
相关链接
原文链接:https://github.com/icip-cas/PPTAgent
标签:#PPTAgent #DeepPresenter #中科院 #PPT生成 #Agent #EMNLP #ACL #反思式 #MCP #OpenClaw #开源 #微调模型 #沙箱
分类:原创文章


294

被折叠的 条评论
为什么被折叠?



