Vercel榜单最强开源模型实测：Coding之外还有意外发现

原创已于 2026-06-15 10:16:44 修改 · 196 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AI编程 #ai #人工智能

于 2026-06-14 23:34:54 首次发布

Vercel 官方在 Next.js AI Coding Benchmark（M3）中的评测结果显示，M3 目前是表现最好的开源模型。它的基础得分为 75%，在 AGENTS.md 中得分为 96%，排名第六。

这项测试基于 19 个真实开发场景，涵盖路由迁移、useEffect 优化、Next.js 16 新 API 适配等任务，评测AI 编程代理在Agent 在真实 Next.js 项目中的代码修改、迁移、生成和工具调用能力，主要衡量成功率和执行时间。

评测中，M3 超过了 GLM 5.1，Vercel CEO ：M3 是 leading open model。

我实际跑了几个例子，相比M2.7，M3 在多模态/Coding/金融方向都有不小进步。

全自动 AI 剪辑测试任务

让他用HyperFrames 做一个从研究到视频生成的任务：【任务目标】围绕“MiniMax M3 模型特色”这一主题，自主完成从研究到视频生成的完整流程，并输出一个 16:9 横屏纯画面视频（无字幕、无音乐）。

完整提示词如下：

M3的效果

PixPin_2026-06-11_14-48-02

转场节点设计

它是从Unsplash 找的免费素材。

当然，目前这个全自动提示词并不代表着观众就爱看，比如我觉得后面的那种背景可以优化一下，把背景换成人物口播，效果会好一些。

也就是把自己的素材放在后面，然后再然后再配上M3这种信息的获取与整理能力做出。搭配Ken-Burns推拉、浮动卡片、渐变叠层效果也会不错。

不过至少M3按照提示词的要求，它完成的还不错。这模型还可以，这个任务它总共花费了16分钟。

GPT 5.5效果，它没有去找啥素材，效果如下：

，时长00:42

投资人 | 参展行前投资简报

这是一份CIOE 2025 展馆平面图 PDF（12 个馆的展商图），适合用作模型多模态、金融领域测试。

CIOE（中国国际光电博览会）是全球极具影响力的光电产业盛会。对于投资者而言，这份展馆分布图不仅包含海量的企业布局信息，还隐含了产业集聚与技术趋势动向。

这里主要想看看 M3 遇到这种复杂、非结构化的视觉信息（平面图）时表现怎么样，能不能看懂展位信息、理清展商分布情况，再进一步从里面挖出一些值得关注的产业趋势和投资线索，验证模型在多模态理解与行业垂直场景下的处理能力。

投资人到现场要干嘛，要快速定位、要问什么、要避什么坑；面向一 / 二级市场投资人、行业研究员，我准备的的提问如下：

生成投资人参加展会前的行前brief 识别出上市公司，提炼各个公司的核心业务和财务情况，并针对性给出关注点、投资人要问现场展商的问题。输出 PDF。

M3 输出PDF：搞了"个速查表 + 公司卡片 + 提问清单 + 动线建议"四件套

实际生成的报告很长，是输入 PDF 的三倍，比较详细，估计是每一个号馆需要看的信息比较多。

，时长00:36

M3说"中际旭创利润高"，我也看到它翻了中际 2024 年报 + 2025Q1 + 业绩快报，把具体数字（238.6 亿、+123% 那种）写下来了，另外每家都跑了 web search 拉真实财务。

然后每家都给了"现场问什么"，"到了展位你具体问哪 3-4 个问题"，

这个的话，肯定对决策来说，可以提升效率的。

以及一个：参展动线建议 & ⻛险提⽰

还有一个跨主题的归纳能力——把 40+ 公司压成 4 大投资逻辑（AI 算力、国产替代、激光拐点、传感反转）+ 6 大跨主题问题，这是更高一层的信息压缩。

最后他这个审美还好。—— 封面用蓝金配色（投行味）、表格做了斑马纹、公司卡片统一版式、风险点用 callout 标黄，30+ 页排下来视觉感官上还是比较舒适的。

Coding之外

从官方介绍来看，M3相比其他模型，它有一个不同点就是——训练了财务信息搜索整理的能力。那从它实际做任务来看，确实有这么一个体感提升。

借助多 Agent 协同和多模态处理能力，最终生成的行前投资简报 PDF 整体完成度很高，在可用性和观感方面基本挑不出什么明显问题。

新哥特式高塔城市

这个是X上测试Fable5 、 Opus 4.8 的一个提示词。

创建一个视觉效果出色的着色器，可以在 twigl-dot-app 中运行，使其看起来像一座无限延伸的新哥特式高塔城市，部分被波涛汹涌的海洋淹没，尽可能做得更好。

上面是Fable ，下面是Opus 4.8：

，时长00:17

在M3 + Claude Code + Goal模式的情况下。

可以看一下M3的效果，你觉得效果怎么样：

，时长00:49

基本功能都没问题，在Goal模式下自我迭代验证的，耗费了24分钟。

空间站

生成一个单文件 Three.js HTML 页面，构建未来空间站内部结构。空间站由多个圆柱模块、连接舱、旋转环组成，整体悬浮在宇宙背景中（星空 Skybox 或粒子星点）。内部包含走廊、设备舱、货运模块等基础结构。加入零重力漂浮物体（缓慢正弦漂移动画）。灯光采用冷色 LED 灯带效果（emissive 发光材质模拟）。舷窗外可见地球或星球贴图。相机支持自由 OrbitControls，带惯性阻尼。

M3效果：

，时长00:34

M3生成的场景按照提示词的要求做了，什么粒子星点呀，什么材质模拟灯光效模都有。

对比之下，gemini3.5 flash：模型没有显示出来。

工业炼油厂流程系统（工程可视化风格）

生成一个单文件 Three.js HTML 页面，构建大型炼油厂工艺系统三维可视化场景。包含多个立式与卧式压力容器（圆柱体 + 半球封头）、蒸馏塔、冷却塔、泵机组与管廊结构。管道系统需使用不同颜色区分介质流向，并加入流动动画（UV 滚动或纹理偏移模拟）。阀门组件需支持旋转动画，部分设备附带仪表盘与参数标签（Sprite 或 CanvasTexture 文本）。相机支持 OrbitControls，并设置多个预设观察点切换。

gemini3.5 flash：做的比较详细，就是里面的画面点不动。