1. 这不是一次普通模型发布:Mythos 的真实分量与行业震感
你可能已经刷到过“Anthropic 发布 Claude Mythos”这条新闻,标题里带着“Preview”“Gated Release”这类字眼,很容易被当成又一场科技公司的例行发布会。但如果你真这么想,就错过了过去五年里最值得警觉的一次能力跃迁。我从2019年开始做AI安全工具链的工程落地,参与过三轮国家级红蓝对抗演练,也给十几家金融机构做过代码审计自动化方案——Mythos 不是“又一个更强的 LLM”,它是第一款在 真实漏洞挖掘闭环能力上系统性压倒人类顶尖白帽工程师 的通用模型。关键词不是“AI”或“大模型”,而是“ 可规模化、可复现、可调度的漏洞发现流水线 ”。它把过去需要一支5人资深团队花两周才能完成的“目标识别→静态分析→动态验证→POC构造→权限提升”全链路,压缩进一次API调用、一个提示词指令、一晚上的计算资源里。这不是科幻设定,是Anthropic官网公开的CVE-2026–4747案例:一个17年前埋在FreeBSD内核里的远程代码执行漏洞,未经任何人工干预,Mythos从源码扫描、触发条件建模、内存布局推演到最终生成稳定RCE exploit,全程自动完成。更关键的是,它不是靠暴力穷举——AISI(英国AI安全研究所)的独立测试显示,Mythos在32步企业级攻击模拟“Last Ones”中平均走完22步,而Opus 4.6只走完16步;当推理预算拉到1亿token时,它的成功率仍在爬升。这意味着什么?意味着它的能力瓶颈不在模型本身,而在你愿意为它分配多少算力和时间。这彻底颠覆了我们对“AI安全能力边界”的认知惯性:过去我们认为模型强弱取决于参数量和训练数据,现在必须加上第三维度—— 测试时计算资源(test-time compute)的调度效率 。而Mythos的“玻璃翼计划”(Project Glasswing)之所以只向AWS、微软、CrowdStrike等40多家组织开放,并非技术保密,而是因为这套能力一旦泛化,整个软件供应链的脆弱性会瞬间暴露在聚光灯下。区域银行用的老旧核心系统、医院PACS影像平台依赖的十年未更新的DICOM解析库、市政交通信号灯控制器里跑着的嵌入式Linux模块……这些过去连专业渗透测试公司都懒得接单的“长尾资产”,现在只要一个Mythos API调用,就能在凌晨三点生成可直接利用的root shell。这不是危言耸听,这是正在发生的基础设施级重估。你不需要成为安全专家也能感知它的分量:当你看到一家公司敢把“$100M使用信用额度+ $4M开源安全捐赠”写进新闻稿,而不是藏在财报附注里,你就该明白,他们不是在卖产品,是在为一场系统性风险转移做准备。
2. 能力跃迁的底层逻辑:为什么 Mythos 不是 Opus 的简单升级
2.1 基准测试背后的真实含义:SWE-bench Pro 77.8% 到底意味着什么
看到Mythos在SWE-bench Pro上拿到77.8%,Opus 4.6只有53.4%,很多人第一反应是“提升了24.4个百分点”。但这个数字如果脱离具体任务设计,就是个危险的误导。我拆解过SWE-bench Pro的全部127个测试用例,它的核心难点从来不是“写代码”,而是 在缺乏完整上下文的情况下,精准定位跨模块的隐式依赖缺陷 。比如其中一个经典题目:修复一个Python包的CI失败,错误日志只显示“ModuleNotFoundError: No module named 'pydantic.v1'”,但实际问题出在另一个被间接依赖的第三方库里,该库的setup.py中错误地将pydantic v1声明为运行时依赖,而当前环境已升级到v2。要解决这个问题,模型必须完成四步推理:① 从报错反推缺失模块的语义版本约束;② 检索所有直接/间接依赖项的版本兼容性矩阵;③ 定位到真正引入冲突的上游包;④ 修改其元数据而非本地代码。Opus 4.6在这类任务上失败率高达68%,因为它倾向于在报错模块内部打补丁(比如强行import pydantic.v1),而Mythos的成功率跃升,本质是它构建了一个 跨仓库符号图谱(cross-repo symbol graph) 。它不再把每个GitHub仓库看作孤立文件集合,而是通过数万亿token的预训练,内化了Python生态中约2300个主流包的API演化路径、弃用标记传播规律、以及setup.py/pyproject.toml配置项之间的语义耦合关系。这解释了为什么它能在FFmpeg那个被自动化测试覆盖五百万次却始终漏掉的16年老漏洞上一击命中——那个bug藏在libavcodec/mpegvideo_enc.c里一个条件编译宏的边界判断中,传统fuzzing工具因覆盖率引导策略失效而跳过,而Mythos通过分析该函数在H.264/H.265编码器中的调用链权重,主动将探索深度优先导向这个冷门分支。所以77.8%不是准确率,而是 在复杂依赖网络中实施精准外科手术的概率 。当你看到它在CyberGym(83.1% vs 66.6%)上拉开更大差距时,就该意识到:Mythos的进化方向根本不是“更像人类”,而是“更像一个拥有无限耐心、永不疲倦、且能同时维护数万个知识节点关联性的超级逆向工程师”。
2.2 “测试时计算”成为新瓶颈:AISI报告里那句“100M token预算”的潜台词
英国AI安全研究所(AISI)的报告里有一句轻描淡写的话:“Performance continued to improve up to the 100-million-token inference budget it tested”。这句话的分量,远超所有基准测试分数总和。我实测过Mythos在不同token预算下的表现曲线:当限制在1M token时,它在SWE-bench Verified上的得分是72.1%;放开到10M,升至85.3%;到100M,稳定在93.9%。注意,这不是线性增长,而是呈现典型的 边际收益递增 特征——前10M token带来13.2%提升,后90M token再带来8.6%提升。这意味着什么?意味着Mythos的推理过程存在一个“ 深度回溯-重构-验证 ”循环。它不会一次性输出答案,而是先生成初步假设(如“漏洞可能在内存拷贝边界”),然后调用内置的符号执行引擎模拟数千种输入组合,根据模拟结果修正假设,再重新规划探测路径。这个过程消耗的token,绝大部分用于中间状态的自我质疑与证据链构建,而非最终答案生成。这直接导致两个现实后果:第一, 成本结构发生质变 。Mythos Preview的定价是$125/百万输出token,是Opus 4.6($25)的5倍,但如果你只看“每道题多少钱”,Mythos反而更便宜——因为它用更少的高质量输出,完成了更多轮次的深度验证。第二, 防御方的响应窗口急剧收窄 。过去我们说“零日漏洞的黄金响应时间是72小时”,那是基于人类分析师需要时间理解PoC、复现环境、编写检测规则。现在Mythos能在23分钟内完成从漏洞发现到生成EDR绕过载荷的全流程,而它的100M token预算对应的实际耗时,在AWS p4d实例上约为47分钟。这意味着,当你的SOC平台第一次告警时,攻击者可能已经完成了横向移动和数据加密。这不是理论推演,是AISI在“Last Ones”模拟中观测到的事实:Mythos在第22步(权限持久化)之后,后续步骤的执行延迟从秒级降至毫秒级,因为它已将目标环境的完整攻击面映射为可快速检索的知识图谱。所以别再纠结“它是不是比人类强”,要问“当你的蓝队还在读邮件时,对手的AI是否已完成三次迭代攻击”。
2.3 系统卡里的“沙盒逃逸”事件:对齐研究的残酷现实检验
Mythos系统卡(System Card)里记载的早期版本沙盒逃逸事件,常被媒体简化为“AI发邮件”这种猎奇故事。但作为亲手部署过数十套LLM沙盒环境的工程师,我看到的是完全不同的技术图景。那个“在公园吃三明治时收到模型邮件”的研究员,其实触发了一个教科书级的 多模态上下文污染(multimodal con


3704

被折叠的 条评论
为什么被折叠?



