中科院开源 PPTAgent：EMNLP + ACL 双顶会，一句话生成专业 PPT，两阶段反思式 Agent + 9B 微调模型 + 20+ 工具沙箱！

最新推荐文章于 2026-06-27 21:33:40 发布

原创最新推荐文章于 2026-06-27 21:33:40 发布 · 484 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#powerpoint #PPTAgent #DeepPresenter #OpenClaw #Agent

AI Agent 同时被 3 个专栏收录

92 篇文章

订阅专栏

AI社媒

28 篇文章

订阅专栏

PPT演讲视频

21 篇文章

订阅专栏

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

中科院开源 PPTAgent：EMNLP + ACL 双顶会，一句话生成专业 PPT，两阶段反思式 Agent + 9B 微调模型 + 20+ 工具沙箱！

💡 中科院 ICIP 出品，PPTAgent（EMNLP 2025）+ DeepPresenter（ACL 2026）双顶会工作。两阶段编辑式方法模拟人类工作流：分析参考 PPT → 提取功能类型和内容 Schema → 迭代生成编辑动作 → 反思修正。DeepPresenter-9B 专属微调模型显著超越开源模型，20+ 工具沙箱隔离执行，CLI 一行命令生成 PPTX，支持 WebUI/Docker/MCP/OpenClaw 集成，可选 Tavily 搜索 + MinerU 解析 + 文生图增强。

在这里插入图片描述

1. PPTAgent 是什么？

PPTAgent 是中国科学院软件研究所 ICIP 实验室出品的智能 PPT 生成 Agent 框架，核心项目名 DeepPresenter。

🔗 项目地址：https://github.com/icip-cas/PPTAgent
📜 PPTAgent 论文：arXiv:2501.03936（EMNLP 2025）
📜 DeepPresenter 论文：arXiv:2602.22839（ACL 2026）

一句话总结

PPTAgent / DeepPresenter = 中科院 ICIP 智能 PPT 生成 Agent
  = EMNLP 2025 + ACL 2026 双顶会
  = 两阶段反思式生成（分析→编辑→反思→修正）
  = DeepPresenter-9B 专属微调模型
  = 20+ 工具沙箱隔离执行
  = CLI 一行生成 PPTX
  = WebUI + Docker + MCP Server + OpenClaw 集成
  = Tavily 搜索 + MinerU 解析 + 文生图增强
  = 支持附件（PDF/Excel）+ 离线模式
  = PPTEval 三维评估（Content/Design/Coherence）
  = Freeform 自由设计 + 模板生成双模式
  = 不只是文本到幻灯片，是完整 Agent 工作流

为什么 PPT 生成这么难？

传统方法的困境：
  ❌ 只关注内容质量，忽视视觉吸引力和结构一致性
  ❌ 文本→幻灯片的简单映射，缺乏设计感
  ❌ 无反思修正，一次性生成质量不稳定
  ❌ 没有统一评估标准

PPTAgent 的解法：
  ✅ 模拟人类工作流：先分析参考 PPT，再迭代编辑
  ✅ 两阶段方法：分析阶段 + 生成阶段（含反思）
  ✅ 20+ 工具沙箱：搜索/解析/截图/图表/文生图...
  ✅ PPTEval 三维评估：内容 + 设计 + 一致性
  ✅ 9B 微调模型：专为 PPT 任务优化
  ✅ 环境接地反思：基于真实渲染结果修正

2. PPTAgent → DeepPresenter 进化史

时间	里程碑	说明
2025-01	🔓 PPTAgent 开源	初始版本，两阶段编辑式方法
2025-05	⭐ 1000 Stars	社区认可
2025-08	🎉 EMNLP 2025 接收	PPTAgent 论文被接收
2025-09	🛠️ MCP Server 支持	可通过 MCP 协议调用
2025-12	🔥 DeepPresenter 发布	重大升级：深度研究、自由设计、资产创建、文生图、沙箱
2026-01	🆕 PPTX 导出 + 离线模式	自由设计和模板生成均支持 PPTX 导出
2026-03	🤗 模型发布	DeepPresenter-9B + 任务集上线 HuggingFace
2026-04	🎉 ACL 2026 接收	DeepPresenter 论文被接收

DeepPresenter vs PPTAgent 五大升级

1️⃣ 深度研究集成（Deep Research）
   → 自动搜索网络信息，丰富内容深度

2️⃣ 自由形式视觉设计（Free-Form Visual Design）
   → 不受模板限制，自由布局和风格

3️⃣ 自主资产创建（Autonomous Asset Creation）
   → 自动生成图表/截图/图标等视觉元素

4️⃣ 文本到图像生成（Text-to-Image）
   → 可选配文生图模型，提升视觉质量

5️⃣ Agent 环境 + 20+ 工具沙箱
   → 隔离执行，安全可靠
   → 搜索/解析/截图/图表/代码执行等

3. 核心架构：两阶段反思式生成

阶段一：分析（Analysis）

输入：参考 PPT 文件
  ↓
1. 提取幻灯片级功能类型（Functional Types）
   → 封面页/目录页/内容页/过渡页/总结页...
  ↓
2. 提取内容 Schema
   → 每种功能类型的结构模式
   → 标题/正文/图片/图表的布局位置
  ↓
输出：功能类型库 + 内容 Schema 库

阶段二：生成（Generation）——含反思循环

输入：用户需求 + 参考模板
  ↓
1. 起草大纲（Outline Drafting）
   → 根据需求规划幻灯片结构
   → 选择合适的功能类型和 Schema
  ↓
2. 迭代编辑（Iterative Editing）
   → 选择参考幻灯片
   → 生成编辑动作（修改文本/替换图片/调整布局）
   → 在沙箱中渲染预览
  ↓
3. 环境接地反思（Environment-Grounded Reflection）⭐
   → 基于真实渲染结果评估
   → 发现问题 → 修正编辑动作
   → 重复直到满意
  ↓
输出：最终 PPT（.pptx 格式）

反思机制详解

传统方法：
  Prompt → 一次性生成 → 结束
  （没有修正机会，质量不稳定）

PPTAgent 方法：
  Prompt → 生成初版 → 渲染预览 → 反思评估
    ↑                                    ↓
    └──── 修正编辑动作 ←─── 发现问题 ←──┘
  
  关键：反思基于真实渲染结果（环境接地）
  而不是基于"想象中的效果"
  → 修正是有据可依的，不是盲目猜测

4. DeepPresenter-9B 微调模型

为什么需要微调模型？

通用大模型的问题：
  ❌ 不理解 PPT 特有的编辑操作
  ❌ 生成的编辑动作语法错误
  ❌ 对幻灯片布局和设计缺乏直觉
  ❌ 反思质量不稳定

DeepPresenter-9B 的优势：
  ✅ 专为 PPT 任务微调
  ✅ 理解编辑操作语法和语义
  ✅ 具备幻灯片设计直觉
  ✅ 反思修正更精准
  ✅ 显著超越现有开源模型（官方实验验证）

模型下载

格式	HuggingFace	ModelScope
GGUF（量化）	Forceless/DeepPresenter-9B-GGUF	forceless/DeepPresenter-9B-GGUF
全量权重	Forceless/DeepPresenter-9B	forceless/DeepPresenter-9B

推荐使用 GGUF 量化版本：
  → 更小体积，更快推理
  → 配合 llama.cpp 本地运行
  → CLI 自动下载和配置

5. 快速上手部署

方式一：CLI（⭐ 最快上手 + OpenClaw 集成）

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 首次交互式配置
uvx pptagent onboard

# 生成 PPT
uvx pptagent generate "Single Page with Title: Hello World" -o hello.pptx

# 带附件生成
uvx pptagent generate "Q4 Report" \
  -f data.xlsx \
  -f charts.pdf \
  -p "10-12" \
  -o report.pptx

CLI 命令一览：

命令	说明
`pptagent onboard`	交互式配置向导
`pptagent generate`	生成 PPT
`pptagent config`	查看当前配置
`pptagent reset`	重置配置
`pptagent serve`	启动本地推理服务

方式二：从源码构建（开发调试）

uv pip install -e .
playwright install-deps
playwright install chromium
npm install --prefix deeppresenter/html2pptx
modelscope download forceless/fasttext-language-id

# Docker 镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host

# 启动 WebUI
python webui.py

方式三：Docker Compose（服务器部署）

# 拉取镜像
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
docker tag forceless/deeppresenter-host deeppresenter-host

# 启动
docker compose up -d

# 访问 http://localhost:7861

💡 国内用户可使用 1ms.run 镜像加速：
docker pull docker.1ms.run/forceless/deeppresenter-host

配置文件

# 必须配置
cp deeppresenter/config.yaml.example deeppresenter/config.yaml
cp deeppresenter/mcp.json.example deeppresenter/mcp.json

可选增强服务

服务	作用	配置方式
Tavily	提升搜索质量	`mcp.json` 中设置 `TAVILY_API_KEY`
MinerU	提升 PDF 解析质量	`mcp.json` 中设置 `MINERU_API_KEY` 或本地部署
文生图模型	提升图片生成质量	`config.yaml` 中配置 `t2i_model`

离线模式

# config.yaml
offline_mode: true  # 避免加载网络依赖工具（如搜索）
# 需本地部署 MinerU（设置 MINERU_API_URL）

⚠️ 注意：不支持 Windows 原生，需使用 WSL

6. 三大生成模式

模式一：Freeform 自由设计

特点：
  → 无模板约束，自由布局
  → Agent 自主决定视觉风格和排版
  → 支持文生图增强
  → 2026-01 起 支持 PPTX 导出

适合：
  → 创意展示
  → 产品介绍
  → 个性化需求

模式二：模板生成

特点：
  → 基于参考 PPT 模板
  → 分析模板的功能类型和 Schema
  → 迭代编辑生成新幻灯片
  → 保持模板风格一致性
  → 2026-01 起 支持 PPTX 导出

适合：
  → 企业标准化汇报
  → 学术报告
  → 需要特定风格的场景

模式三：文档转 PPT

特点：
  → 输入 PDF/Word 等文档
  → 自动提取关键信息
  → 生成结构化 PPT
  → 可附加 Excel 数据

示例：
  pptagent generate "Q4 Report" \
    -f data.xlsx \
    -f charts.pdf \
    -p "10-12" \
    -o report.pptx

适合：
  → 论文/报告转 PPT
  → 数据分析汇报
  → 自动化文档工作流

7. PPTEval 评估框架

三维评估体系

📊 Content（内容质量）
  → 信息准确性
  → 内容完整性
  → 逻辑结构

🎨 Design（设计质量）
  → 视觉吸引力
  → 排版美观度
  → 配色/字体一致性

🔗 Coherence（一致性）
  → 幻灯片间逻辑连贯
  → 风格统一性
  → 过渡自然度

为什么重要？

传统评估：只看文本内容 → 忽视了 PPT 是视觉媒介

PPTEval：三维评估 → 内容 + 设计 + 一致性
  → 更全面地反映 PPT 实际质量
  → 研究论文中的标准化评估工具
  → PPTAgent 在三维上均显著超越现有方法

8. 竞品对比

对比维度	PPTAgent/DeepPresenter	Gamma	Beautiful.ai	SlidesGPT	Marp
出品方	中科院 ICIP	Gamma	Beautiful.ai	SlidesGPT	Marp
学术背书	EMNLP 2025 + ACL 2026	❌	❌	❌	❌
开源	✅	❌	❌	❌	✅
Agent 架构	✅ 反思式 Agent	❌	❌	❌	❌
微调模型	✅ DeepPresenter-9B	❌	❌	❌	❌
沙箱环境	✅ 20+ 工具	❌	❌	❌	❌
反思修正	✅ 环境接地反思	❌	❌	❌	❌
文档转PPT	✅ PDF/Excel/Word	✅	✅	❌	✅ Markdown
文生图	✅ 可选配	✅	✅	❌	❌
PPTX 导出	✅	✅	✅	✅	需插件
MCP 协议	✅	❌	❌	❌	❌
OpenClaw 集成	✅	❌	❌	❌	❌
离线模式	✅	❌	❌	❌	✅
深度研究	✅	❌	❌	❌	❌
自由设计	✅	✅	✅	❌	✅
评估框架	✅ PPTEval	❌	❌	❌	❌
价格	免费开源	免费/付费	免费/付费	付费	免费开源

最大差异化

1. 双顶会学术背书：EMNLP 2025 + ACL 2026
2. 反思式 Agent：基于真实渲染结果修正，不是一次性生成
3. 9B 微调模型：专为 PPT 任务优化，显著超越开源模型
4. 20+ 工具沙箱：搜索/解析/截图/图表/代码执行...
5. PPTEval 三维评估：内容 + 设计 + 一致性
6. MCP + OpenClaw：可集成到 Agent 生态
7. 深度研究：自动搜索网络信息丰富内容
8. 全开源：模型 + 代码 + 评估框架

9. 适用场景与优缺点

✅ 适合场景

📋 学术报告/论文答辩
  → 文档转 PPT，保留核心内容
  → 模板生成保持风格统一

📊 商业汇报/季度报告
  → 附件 Excel 数据自动整合
  → Deep Research 自动搜索行业数据

🎓 教学课件
  → 高中/大学课堂展示
  → 自动生成结构化教学内容

🎨 创意展示/产品介绍
  → Freeform 自由设计
  → 文生图增强视觉效果

🔧 Agent 生态集成
  → OpenClaw 插件调用
  → MCP 协议接入
  → 自动化工作流

🤖 研究实验
  → PPTEval 评估框架
  → 可复现的实验基准

⚠️ 注意事项

1. 不支持 Windows 原生：需使用 WSL
2. 首次配置较复杂：需配置 config.yaml + mcp.json
3. 需 Docker 环境：沙箱功能依赖 Docker
4. 模型推理需 GPU：DeepPresenter-9B 推荐本地 GPU
5. 可选服务需额外申请：Tavily/MinerU API Key
6. 中文场景表现：需验证（案例中有中文示例）
7. macOS CLI 自动安装依赖：Linux 需手动准备

10. 总结与推荐

推荐指数：⭐⭐⭐⭐⭐

维度	评分	说明
学术	⭐⭐⭐⭐⭐	EMNLP + ACL 双顶会，学术含金量最高
创新	⭐⭐⭐⭐⭐	反思式 Agent + 环境接地 + 9B 微调
功能	⭐⭐⭐⭐⭐	3 种生成模式 + 20+ 工具 + 深度研究
开源	⭐⭐⭐⭐⭐	代码 + 模型 + 评估框架全开源
易用	⭐⭐⭐⭐	CLI 一行生成，但配置稍复杂
生态	⭐⭐⭐⭐	MCP + OpenClaw + Docker + WebUI
部署	⭐⭐⭐⭐	三种部署方式，但需 WSL/Docker

一句话推荐

如果你需要 AI 自动生成专业 PPT，PPTAgent 是当前学术最强、功能最全的开源方案。

EMNLP + ACL 双顶会背书，反思式 Agent 不是一次性生成而是迭代修正，
9B 微调模型专为 PPT 任务优化，20+ 工具沙箱安全执行，
CLI 一行命令出 PPTX，MCP/OpenClaw 生态集成。

AI PPT 生成，终于有了学术级方案。

📢 项目地址：https://github.com/icip-cas/PPTAgent
📜 PPTAgent：arXiv:2501.03936（EMNLP 2025）
📜 DeepPresenter：arXiv:2602.22839（ACL 2026）
🤗 模型下载：HuggingFace Collections
🛠️ MCP 配置：DOC.md