Vercel榜单最强开源模型实测:Coding之外还有意外发现

Vercel 官方在 Next.js AI Coding Benchmark(M3)中的评测结果显示,M3 目前是表现最好的开源模型。它的基础得分为 75%,在 AGENTS.md 中得分为 96%,排名第六。

图片

这项测试基于 19 个真实开发场景,涵盖路由迁移、useEffect 优化、Next.js 16 新 API 适配等任务,评测AI 编程代理在Agent 在真实 Next.js 项目中的代码修改、迁移、生成和工具调用能力,主要衡量成功率和执行时间。

评测中,M3 超过了 GLM 5.1,Vercel CEO :M3 是 leading open model。

图片

我实际跑了几个例子,相比M2.7,M3 在多模态/Coding/金融方向都有不小进步。

全自动 AI 剪辑测试任务

让他用HyperFrames 做一个从研究到视频生成的任务:【任务目标】围绕“MiniMax M3 模型特色”这一主题,自主完成从研究到视频生成的完整流程,并输出一个 16:9 横屏纯画面视频(无字幕、无音乐)。 

完整提示词如下:

图片

M3的效果

图片

PixPin_2026-06-11_14-48-02

转场节点设计

图片

它是从Unsplash 找的免费素材。

图片

当然,目前这个全自动提示词并不代表着观众就爱看,比如我觉得后面的那种背景可以优化一下,把背景换成人物口播,效果会好一些。

也就是把自己的素材放在后面,然后再然后再配上M3这种信息的获取与整理能力做出。搭配Ken-Burns推拉、浮动卡片、渐变叠层效果也会不错。

不过至少M3按照提示词的要求,它完成的还不错。这模型还可以,这个任务它总共花费了16分钟。

GPT 5.5效果,它没有去找啥素材,效果如下:

图片

,时长00:42

投资人 | 参展行前投资简报

这是一份CIOE 2025 展馆平面图 PDF(12 个馆的展商图),适合用作模型多模态、金融领域测试。

CIOE(中国国际光电博览会)是全球极具影响力的光电产业盛会。对于投资者而言,这份展馆分布图不仅包含海量的企业布局信息,还隐含了产业集聚与技术趋势动向。

这里主要想看看 M3 遇到这种复杂、非结构化的视觉信息(平面图)时表现怎么样,能不能看懂展位信息、理清展商分布情况,再进一步从里面挖出一些值得关注的产业趋势和投资线索,验证模型在多模态理解与行业垂直场景下的处理能力。

图片

投资人到现场要干嘛,要快速定位、要问什么、要避什么坑;面向一 / 二级市场投资人、行业研究员,我准备的的提问如下:

生成投资人参加展会前的行前brief 识别出上市公司,提炼各个公司的核心业务和财务情况,并针对性给出关注点、投资人要问现场展商的问题。输出 PDF。

图片

M3 输出PDF:搞了"个速查表 + 公司卡片 + 提问清单 + 动线建议"四件套

实际生成的报告很长,是输入 PDF 的三倍,比较详细,估计是每一个号馆需要看的信息比较多。

图片

,时长00:36

M3说"中际旭创利润高",我也看到它翻了中际 2024 年报 + 2025Q1 + 业绩快报,把具体数字(238.6 亿、+123% 那种)写下来了,另外每家都跑了 web search 拉真实财务。

图片

然后每家都给了"现场问什么","到了展位你具体问哪 3-4 个问题",

这个的话,肯定对决策来说,可以提升效率的。

图片

以及一个:参展动线建议 & ⻛险提⽰ 

图片

还有一个跨主题的归纳能力——把 40+ 公司压成 4 大投资逻辑(AI 算力、国产替代、激光拐点、传感反转)+ 6 大跨主题问题,这是更高一层的信息压缩。

图片

最后他这个审美还好。—— 封面用蓝金配色(投行味)、表格做了斑马纹、公司卡片统一版式、风险点用 callout 标黄,30+ 页排下来视觉感官上还是比较舒适的。

  Coding之外

从官方介绍来看,M3相比其他模型,它有一个不同点就是——训练了财务信息搜索整理的能力。那从它实际做任务来看,确实有这么一个体感提升。

借助多 Agent 协同和多模态处理能力,最终生成的行前投资简报 PDF 整体完成度很高,在可用性和观感方面基本挑不出什么明显问题。

新哥特式高塔城市

这个是X上测试Fable5 、 Opus 4.8 的一个提示词。

创建一个视觉效果出色的着色器,可以在 twigl-dot-app 中运行,使其看起来像一座无限延伸的新哥特式高塔城市,部分被波涛汹涌的海洋淹没,尽可能做得更好。

上面是Fable ,下面是Opus 4.8:

,时长00:17

在M3 + Claude Code + Goal模式的情况下。

可以看一下M3的效果,你觉得效果怎么样:

,时长00:49

图片

基本功能都没问题,在Goal模式下自我迭代验证的,耗费了24分钟。

图片

空间站

生成一个单文件 Three.js HTML 页面,构建未来空间站内部结构。空间站由多个圆柱模块、连接舱、旋转环组成,整体悬浮在宇宙背景中(星空 Skybox 或粒子星点)。内部包含走廊、设备舱、货运模块等基础结构。加入零重力漂浮物体(缓慢正弦漂移动画)。灯光采用冷色 LED 灯带效果(emissive 发光材质模拟)。舷窗外可见地球或星球贴图。相机支持自由 OrbitControls,带惯性阻尼。

M3效果:

,时长00:34

M3生成的场景按照提示词的要求做了,什么粒子星点呀,什么材质模拟灯光效模都有。

对比之下,gemini3.5 flash:模型没有显示出来。

图片

工业炼油厂流程系统(工程可视化风格)

生成一个单文件 Three.js HTML 页面,构建大型炼油厂工艺系统三维可视化场景。包含多个立式与卧式压力容器(圆柱体 + 半球封头)、蒸馏塔、冷却塔、泵机组与管廊结构。管道系统需使用不同颜色区分介质流向,并加入流动动画(UV 滚动或纹理偏移模拟)。阀门组件需支持旋转动画,部分设备附带仪表盘与参数标签(Sprite 或 CanvasTexture 文本)。相机支持 OrbitControls,并设置多个预设观察点切换。

gemini3.5 flash:做的比较详细,就是里面的画面点不动。

图片

M3  也是按照提示词一步一步做了出来,包括管道系统需要使用不同颜色进行区分介质流向。

PixPin_2026-06-11_15-01-38 (1)

图片

最主要的是,它没有思考过度,就是按照提示来。然后的话,用户在点击操作整个3D场景的时候,非常顺滑。点击效果这种运镜的丝滑会很顺畅。

PixPin_2026-06-11_15-01-38 (1)

最后,M3 + 多Agent:我让它研究了一个东西 ——

Remotion、HyperFrames这些AI剪辑Skills虽然出现了,但是大部分人做的效果并不好。AI味很重。所以我让他去找一找社交平台,做的好的人。

使用M3 + Claude Code 他创建的Team团队,看了一下,调用的子Agent还挺多的。

,时长00:38

输出如下:

图片

图片

写在最后

体感上,相比我上次用的 M2.7,他有了明显提升,特别是测试的那几个编码的例子,可以很直观的看出来。然后,不管是多模态PDF、金融的那些例子,还是做视频的那个、做研究搜索,任务中都能给出有价值、可用结果。

从大模型的使用成本来看,需结合不同任务进行性价比评估,在不同场景下选择合适的模型更合理。

图片

M3 相比 Claude、GPT 这类模型价格优势明显,且具备 1M 上下文窗口与原生多模态能力,能够以更低的综合成本应对复杂任务。

以上。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aitrainee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值