Anthropic发布最强模型Mythos

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。

4月7日,Anthropic放出了一个新模型。名字叫Claude Mythos Preview,代号Capybara(水豚),定位比目前最强的Opus还高一个级别。但你暂时用不到它。

Anthropic没有把它开放给公众。他们把模型交给了一个由12家公司和约40家关键基础设施组织组成的联盟,专门用来做网络安全防御。这个计划叫Project Glasswing(玻璃翅蝶计划),参与方包括Amazon、Apple、Google、Microsoft、Cisco、NVIDIA、CrowdStrike、Broadcom、JPMorganChase、Palo Alto Networks和Linux Foundation。Anthropic承诺提供最多1亿美元的使用额度,外加向开源安全组织捐赠400万美元。

跑分数据

先看硬指标:

SWE-bench Verified(真实软件工程任务),Mythos拿到93.9%,Opus 4.6是80.8%。SWE-bench Pro(更难的测试),77.8%对53.4%。差距最悬殊的是SWE-bench Multimodal(视觉界面加代码),Mythos 59.0%,Opus只有27.1%,直接翻了一倍多。

GPQA Diamond(研究生级科学推理),94.6%对91.3%。Humanity's Last Exam(目前公认最难的AI基准),56.8%对40.0%。CyberGym(AI漏洞发现能力),83.1%对66.6%。

数字摆在这里,但真正让人不安的不是跑分。

为什么不敢公开发布

Anthropic前沿红队负责人用了"reckoning"这个词——清算时刻。

过去几周的测试中,Mythos Preview在主流操作系统和主流浏览器里都挖出了高危零日漏洞。数量达到数千个,其中不少已经潜伏了十年甚至二十年。Opus 4.6之前在开源软件里发现了大约500个零日,Mythos的产出完全不是一个量级。

更麻烦的是,这个模型不只是找漏洞,还能自己写出利用这些漏洞的攻击代码。

1️⃣ 几个具体案例

OpenBSD上发现了一个存在27年的漏洞。OpenBSD以安全著称,大量路由器和防火墙都在用它。漏洞出在TCP协议的SACK机制里,一个整数溢出问题。攻击者只要连上目标机器就能让它崩溃,极其隐蔽。

FFmpeg里挖出了一个16年的老bug。FFmpeg几乎是所有视频软件的底层依赖。之前的自动化测试工具扫过这行代码500万次,从来没报过问题。

Linux内核提权方面,Mythos自主发现并串联了多个漏洞,从普通用户权限一路提到完全控制整台机器。

2️⃣ 不需要源码也能找漏洞

这一点值得单独说说。现实中的攻击者基本拿不到目标软件的源码。Mythos不需要源码就能分析二进制文件找漏洞,这在实际攻防中是一个很大的能力变化。

完整的技能清单还包括高级漏洞利用代码开发、渗透测试、端点安全评估、系统配置错误排查。Anthropic CEO Dario Amodei在发布视频里说得很直接:"我们没有专门训练它做网络安全,训练的是代码能力。但擅长代码的副作用就是擅长网络安全。"

用数据对比一下:同一个Firefox JavaScript引擎的漏洞利用测试,Opus 4.6在几百次尝试里只成功2次,Mythos成功了181次。Anthropic内部没有安全背景的工程师,晚上给Mythos一个简单指令让它去找远程代码执行漏洞,第二天早上就收到了一个能直接跑的攻击代码。

普通人什么时候能用

短期内没戏。目前没有公开API,没有定价,没有发布日期。Anthropic文档里的模型列表还是Opus 4.6、Sonnet 4.6和Haiku 4.5。

不过Google Cloud已经宣布在Vertex AI上向部分客户提供Mythos的Private Preview访问。Glasswing项目的合作定价是输入25美元、输出125美元(每百万token),而Opus 4.6是5/25美元,贵了五倍。但据说还是比GPT-5.4 Pro便宜一些。

泄露的内部文档承认这个模型"运行成本非常高",公司正在努力"在任何公开发布之前让它高效得多"。

行业里比较靠谱的预期是:2026年中期扩大早期访问,第四季度通过API公开发布。这个节奏可能跟Anthropic据传正在筹备的IPO有关,目标时间在2026年10月前后。

Anthropic在博客里留了一句,说公司的目标是有朝一日"让用户能够安全地大规模部署Mythos级别的模型",包括网络安全以外的通用场景。

分阶段发布的逻辑

Anthropic把这种做法类比为网络安全行业的"协调漏洞披露"——先给开发者时间修补,再公开细节。换句话说,先让Amazon、Apple、Google、Microsoft们用自己的系统跑一遍,把能发现的漏洞堵上,然后再考虑对外开放。

这种策略说得通,但也确实存在一个矛盾:把模型说得越危险,它就显得越值钱。Anthropic一边构建越来越强的AI系统,2026年预计年化收入已超过300亿美元(去年是90亿),一边高调警告这些系统的危险程度。这个叙事结构很难不让人多想。

同一天,Anthropic还宣布了和Google、Broadcom的大规模算力合作,获得约3.5吉瓦的Google AI处理器算力。Bloomberg报道他们从Microsoft挖走了高管Eric Boyd来领导基础设施扩展。另外,Mythos的存在上个月就被意外曝光了——3月26日有人发现Anthropic内容管理系统配置出错,把约3000份内部文件暴露在公开存储中。Anthropic后来承认是人为失误。

还有一个背景:Anthropic目前正跟五角大楼打官司。五角大楼今年早些时候因Anthropic对技术使用设限而将其列为"供应链风险",联邦法官后来暂时阻止了这一认定。

怎么看

从已有信息看,网络安全能力的跃升是真实的。CrowdStrike的CTO说漏洞被发现到被利用之间的窗口期已经从数月缩短到数分钟。Microsoft在自家开源安全基准上也确认了Mythos有明显提升。

Anthropic前沿红队负责人对Glasswing项目的判断很直白:如果最终只是几家公司用用模型,那就算失败了,它必须成长为更大的东西。

对普通开发者和用户来说,现在能做的确实有限。与其盯着Anthropic的发布日程,不如看竞争对手。一旦OpenAI的GPT-6、Google的Gemini 4或DeepSeek的V4在能力上追上来,Anthropic就没有理由继续把模型只给少数合作伙伴用了。他们自己也说了,其他公司的模型可能6到18个月内就会具备类似能力。

到那个时候,Mythos或者它的继任者大概率会迅速开放。普通人什么时候能用上这个级别的模型,取决于的不是Anthropic什么时候觉得安全,而是竞争对手什么时候让它觉得不发不行。

如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。

知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。

【ima知识库】苍一AI编程

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

内容概要:本文围绕“基于交流潮流的电力系统多元件N-k故障模型研究”展开,深入探讨了利用Matlab代码实现电力系统在发生多个关键元件同时故障(即N-k故障)情况下的交流潮流计算与故障分析方法。该模型不仅考虑了传统潮流方程的非线性特性,还引入了故障约束条件,能够精确模拟复杂多样的故障场景,如短路、断线等,进而评估电网在极端运行条件下的稳态与动态行为。研究通过构建典型电力系统算例,验证了所提模型在故障筛选、脆弱性识别及系统恢复策略制定方面的有效性,为电力系统安全评估、风险预警和防御体系构建提供了坚实的理论依据和技术支撑。此外,模型具备良好的扩展性,可进一步应用于连锁故障传播分析、恶意攻击模拟等高级安全分析领域。; 适合人群:具备电力系统分析基础理论知识和Matlab编程能力的高校研究生、科研院所研究人员以及电力公司从事电网规划、运行与安全管理的技术人员,特别适用于开展电力系统安全稳定、可靠性评估与应急响应机制研究的专业人士。; 使用场景及目标:①开展电力系统在多重故障条件下的交流潮流仿真,评估系统电压稳定性、线路过载风险及负荷损失程度;②识别电网中的关键薄弱环节与脆弱元件,支撑电网加固改造与防御资源配置;③用于科研项目中的故障场景建模与算法验证,或作为教学案例帮助学生理解复杂故障下的系统响应机制。; 阅读建议:此资源以Matlab代码为核心实现手段,建议读者结合理论推导与代码实现进行对照学习,重点关注故障建模过程中雅可比矩阵的修正方法、故障注入方式及收敛性处理策略,建议在仿真中逐步增加故障数量与复杂度,深入理解N-k故障对系统潮流分布的影响规律,并尝试将其拓展至含新能源接入的现代电力系统场景中进行验证与优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拂晓 AI 编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值