OpenAI 发布定制芯片 Jalapeño，能否打破英伟达垄断并解决算力难题？

转载于 2026-06-26 09:20:21 发布 · 14 阅读

OpenAI 发布定制 AI 芯片 Jalapeño

今天，OpenAI 正式展示了与博通联合打造的首款定制人工智能芯片 Jalapeño（墨西哥辣椒）。博通首席执行官 Hock Tan 表示，该芯片性能可媲美英伟达的 Blackwell 芯片或 Alphabet 旗下谷歌设计的 TPU。OpenAI 计划在今年年底前部署 Jalapeño，这也是其多代芯片开发计划的第一步。目前，OpenAI 已在实验室运行该芯片样品，且在 GPT - 5.3 - Codex - Spark AI 模型上，芯片的功耗和性能均达到目标水平。

在合作分工上，OpenAI 负责从自身模型、内核、服务系统和产品需求出发设计芯片；博通负责芯片实现、网络和连接技术；加拿大电子制造商 Celestica 则提供板卡、机架和系统层面的专业能力，帮助实现从芯片到服务器系统、再到大规模生产部署的工业化。据悉，OpenAI 随后会将设计交给 TSMC（台积电）制造。

有网友表示，几年前没想到 AI 公司会自己设计芯片，随着越来越多 AI 实验室开始自研定制硬件，开始思考未来几年像英伟达和 AMD 这样的公司会变成什么样子。还有网友感叹，把芯片命名为 Jalapeño 说明这场竞争已经激烈到一定程度。不过，不少网友不理解为什么要把这款芯片命名为 Jalapeño，甚至有人认为 OpenAI 在命名方面可能是史上最糟糕的，还有人做了一些梗图。

九个月、AI 参与设计，打造全栈控制权

OpenAI 硬件负责人 Richard Ho 表示，Jalapeño 处理器旨在与驱动大量 AI 应用的大模型快速、高效地协同工作，认为它将在未来各类大模型迭代版本上都具备良好性能。Jalapeño 是从零开始为大模型推理设计的芯片，将服务于 ChatGPT、Codex、API 以及未来的 Agentic 产品等场景，目标是在大规模交互式 AI 产品中，同时兼顾高吞吐、低延迟和高能效。

有网友评价，软件层面的利润空间无法在吉瓦级的推理计算规模下长期维持，要把每个 token 的成本底线进一步压低，构建定制 ASIC 是必须发生的基础设施转型。

Richard Ho 介绍，Jalapeño 架构优化重点来自 OpenAI 与研究团队的紧密协作，包括对前沿 AI 模型中最关键的内核、内存移动、网络和服务模式的理解。OpenAI 仍在评估芯片的最终性能，但早期测试表明，Jalapeño 能够在重要工作负载上接近硬件理论极限运行。该架构减少了数据传输，并平衡了计算、内存和网络资源，使实际利用率更接近理论峰值性能，相比简单堆叠算力，更强调大模型推理中的真实效率。此外，OpenAI 表示芯片的散热性能甚至比预期的还要好，这也解释了为什么将其称为 "Intelligence Processor"，而不仅仅是 "AI 加速器"。

Jalapeño 从初始设计到制造流片仅用了九个月，OpenAI 认为这是高性能先进半导体领域定制 AI 加速器项目中速度最快的 ASIC 开发周期之一。设计周期较快，除了 OpenAI 工程团队与博通的深度合作、博通的资深经验外，OpenAI 还在部分设计和优化流程中使用了 OpenAI 的模型，这表明 AI 不只是芯片的使用者，也开始成为芯片设计流程的一部分。OpenAI 认为，如果 AI 能帮助工程师更快设计出更好的芯片，就有可能降低整个行业的计算成本，并推动先进 AI 更广泛可及。

此前，Hock Tan 曾透露，Jalapeño 加速器相比典型的 AI 图形处理单元，可以节省约 50% 的成本。Jalapeño 并不是一次性的单芯片项目，而是 OpenAI 与博通共建多代计算平台的第一步。博通预计首批芯片将于今年年底前在微软和其他合作伙伴处投入商业使用，但 OpenAI 表示真正的批量生产要到明年才会到来。OpenAI 的目标是到 2029 年，利用定制芯片实现 10 吉瓦的计算能力。

Ho 表示，这让 OpenAI 拥有了全栈控制权。OpenAI 认为，Jalapeño 的发布标志着公司正在进一步扩展自身全栈平台能力，从产品、模型，延伸到底层芯片。有网友感叹，下一场人工智能竞赛的焦点或许在于基础设施，而不仅仅是智能本身。还有网友将 OpenAI 的 Jalapeño 项目和 SpaceX 与 Cursor 之间的交易做对比，认为它们实际上指向的是同一个结构性转变：Jalapeño 代表的是对支撑智能运行的底层基础设施的掌控，包括芯片、算力以及网络；而 Cursor 则代表的是对智能真正被使用的 "工作流层" 的掌控。该网友总结，随着前沿模型能力不断增强，竞争优势正在从模型本身逐渐转移出去，未来十年中赢得 AI 竞争的公司，可能不再只是那些拥有最聪明模型的公司，而是那些能够掌控模型周边最强 "技术栈" 的公司。

OpenAI 总裁兼联合创始人 Greg Brockman 表示，世界正在进入由计算驱动的经济。Jalapeño 是 OpenAI 长期全栈基础设施战略的一部分，目标是让算力更加充足，从而让 AI 对个人和企业而言更快、更可靠、更可负担，并被用于解决更重要的问题。在 OpenAI 看来，全栈能力带来的优势在于，不同层级可以围绕同一个目标进行协同优化，让模型更快、更可靠，也更便宜。更好的基础设施可以提升计算效率，更高的计算效率又能支撑更好的训练和推理，进一步推动更强模型和更好产品。随着产品使用增加，OpenAI 又可以将收入继续投入下一代基础设施，形成围绕算力、模型、产品和商业化的飞轮。

芯片成兵家必争之地，OpenAI 暂避英伟达

OpenAI 的第一款芯片产品，实际上避开了与英伟达、谷歌等直接交锋。目前，训练和推理基础设施正在走向分化。当前，不少推理工作负载仍运行在与训练相似的基础设施上，但随着其加速普及，推理调用量将大幅增长，并逐渐成为主要算力需求来源。相比训练，推理对成本、能效和响应速度更加敏感，也更容易根据具体使用场景进行硬件优化，因此，推理基础设施将越来越偏向专用硬件。

可以看到，OpenAI 目前的发力方向就是该领域，训练继续依赖英伟达等外部芯片，先单独把推理芯片做出来内部使用。

相比之下，英伟达的核心思路不是 "一套训练芯片，一套推理芯片"，而是用一套足够通用的 GPU 架构吃掉训练、推理和更广泛的数据中心 AI 工作负载，比如 Hopper、Blackwell 既能训练也能推理。但英伟达会在营销和产品形态上，把某些产品更明确地推向推理，比如现在官方已经把 Blackwell 平台非常明确地包装成大模型推理平台，宣称 GB300 NVL72 在 agentic inference 场景下可把每 token 成本大幅压低，并强调 "AI inference at scale"。

同样地，Google TPU 是为矩阵乘、张量计算、Transformer 深度学习工作负载定制的 ASIC，核心目标是把训推里最核心的张量计算做得更高效，并与自己的软件栈、数据中心、模型体系深度耦合，以此在成本、功耗、互联上优于通用 GPU。当然，Google 也有一些面向推理的产品，但基本是在 TPU 体系里做 "推理优化"，像 TPU v5e 集训练和推理（服务）于一体，而 v6e - 8 配置则是为推理优化的，可以让 8 个芯片服务同一个推理工作负载。

有网友说道，一旦推理成为最大的成本账单，就不再是租用芯片，而是开始自己造芯片了，所有还在出租算力的人可能都该有点紧张了。此外，OpenAI 未来一系列芯片产品是否公开发售，或许会对主打 "提供快速、低成本推理，即使在真正重要的情况下也不会出错" 的 Groq 等公司产生影响。

路透社最早在 2023 年报道称，OpenAI 正在探索自研芯片。OpenAI 曾考虑完全自研，并筹集资金实施一项耗资庞大的计划，建设一个被称为 "foundries" 的芯片制造工厂网络，但由于建设该网络所需的成本和时间过高，该公司目前已经搁置了这一雄心勃勃的计划，转而专注于内部芯片设计工作。这一措施背后，是 OpenAI 为代表的 AI 实验室们面临算力短缺问题，难以获得足够计算资源来运行最新、最强大 AI 应用的困境。为此，一些头部公司已经转向自研芯片，希望降低成本，并为当前广泛用于 AI 的 Nvidia GPU 提供替代方案。Meta、Amazon 和 Google 等公司也选择了与博通、Marvell 等企业合作，这些公司能够提供特定的设计服务和知识产权，而这些能力往往很难完全在内部复制。今年 4 月，路透社透露，Anthropic 也在考虑打造自己的 AI 芯片。

未来推理：CPU + 多个定制 AI 加速器

毫无疑问，生成式 AI 对半导体行业最直接的影响之一，就是对 CPU、GPU 和 AI 加速器的需求急速上升。麦肯锡预计，到 2030 年，非生成式 AI 应用带来的逻辑晶圆需求约为 1500 万片，其中约 700 万片将采用 >3 纳米的工艺节点生产，约 800 万片将采用 ≤3 纳米的工艺节点生产。在此基础上，生成式 AI 将额外带来 120 万 - 360 万片、采用 ≤3 纳米工艺节点生产的晶圆需求。

根据当前逻辑晶圆厂规划，到 2030 年，全球预计可生产约 1500 万片采用 ≤7 纳米工艺节点的晶圆。这意味着，生成式 AI 可能造成 100 万至约 400 万片先进逻辑晶圆的潜在供应缺口，尤其集中在 ≤3 纳米的先进制程节点。麦肯锡测算，为了弥补这一缺口，到 2030 年可能需要新建 3 - 9 座逻辑晶圆厂。由于先进逻辑晶圆厂投资规模巨大、建设周期长、设备与供应链复杂，这将成为半导体行业必须提前布局的关键问题。

在训练侧，未来架构预计仍将延续当前高性能集群模式，即数据中心内服务器通过高带宽、低延迟网络连接。麦肯锡在报告中表示，当前主流高性能生成式 AI 服务器通常采用两个 CPU 和八个 GPU 的组合。到 2030 年，大多数训练工作负载仍将使用这种 CPU + GPU 架构。同时，GPU 和 AI 加速器也可能向系统级封装设计演进，并与现有架构长期共存。

而在推理侧，情况将明显不同。到 2030 年，更多面向推理的 AI 服务器预计将采用 CPU 与多个定制 AI 加速器的组合。这些 AI 加速器多数将基于 ASIC。由于 ASIC 可以围绕特定 AI 任务进行优化，在大规模推理场景中有望获得更低成本、更高能效和更优性能。

“内存墙”仍是最大不确定性

值得注意的是，博通 CEO Hock Tan 在路透社采访中透露，目前受 AI 带动的内存需求激增影响，博通在定制芯片上的利润率并不如其部分其他芯片产品高，例如网络交换芯片。Tan 称，AI 芯片需要大量高带宽内存，这对博通定制 AI 芯片产品的利润率构成挑战。他表示，韩国 SK 海力士和三星电子向博通供应内存芯片。

生成式 AI 主要带动了两类 DRAM：一种是连接到 GPU 或 AI 加速器的高带宽内存 HBM，另一种是连接到 CPU 的 DDR 内存。HBM 拥有更高带宽，是当前 AI 训练和高性能推理中不可或缺的关键组件。但与 DDR 相比，HBM 在存储相同数据量时需要更多硅面积，因此也会带来更高制造压力。

SK 海力士是 AI 内存短缺的最大受益者之一，但其 HBM 产能高度紧张，核心客户大概率已经提前锁量。SK 海力士此前表示，2026 年所有 DRAM、HBM 和 NAND 闪存产品均已售罄。Micron 最新财报也显示 AI 内存整体供给紧张可能持续到 2027 年以后，这说明行业整体上 HBM 供给不足。

目前，各大公司一直在扩展内存容量，但内存容量增长并不简单，它正在给硬件和软件设计带来挑战。其中最核心的问题是 "内存墙"：内存容量和带宽正在成为系统级计算性能瓶颈。即使计算芯片本身拥有更高峰值性能，如果数据无法足够快地被读取、传输和处理，整体系统性能仍会受限。

目前，行业正在探索多种解决路径。例如，静态随机存取存储器 SRAM 被用于增加近计算内存，但由于成本较高，广泛采用仍受限制。与此同时，未来算法也可能减少每次推理运行所需内存，从而减缓总内存需求增长。

另一个不确定因素来自 AI 加速器架构。相比 CPU + GPU 架构，部分 AI 加速器可能对内存需求更轻。随着推理工作负载增长，到 2030 年 AI 加速器可能更受欢迎，这可能导致内存需求增速低于某些高预期情景。