OpenAI 发布定制芯片 Jalapeño,能否打破英伟达垄断并解决算力难题?

OpenAI 发布定制 AI 芯片 Jalapeño

今天,OpenAI 正式展示了与博通联合打造的首款定制人工智能芯片 Jalapeño(墨西哥辣椒)。博通首席执行官 Hock Tan 表示,该芯片性能可媲美英伟达的 Blackwell 芯片或 Alphabet 旗下谷歌设计的 TPU。OpenAI 计划在今年年底前部署 Jalapeño,这也是其多代芯片开发计划的第一步。目前,OpenAI 已在实验室运行该芯片样品,且在 GPT - 5.3 - Codex - Spark AI 模型上,芯片的功耗和性能均达到目标水平。

在合作分工上,OpenAI 负责从自身模型、内核、服务系统和产品需求出发设计芯片;博通负责芯片实现、网络和连接技术;加拿大电子制造商 Celestica 则提供板卡、机架和系统层面的专业能力,帮助实现从芯片到服务器系统、再到大规模生产部署的工业化。据悉,OpenAI 随后会将设计交给 TSMC(台积电)制造。

有网友表示,几年前没想到 AI 公司会自己设计芯片,随着越来越多 AI 实验室开始自研定制硬件,开始思考未来几年像英伟达和 AMD 这样的公司会变成什么样子。还有网友感叹,把芯片命名为 Jalapeño 说明这场竞争已经激烈到一定程度。不过,不少网友不理解为什么要把这款芯片命名为 Jalapeño,甚至有人认为 OpenAI 在命名方面可能是史上最糟糕的,还有人做了一些梗图。

九个月、AI 参与设计,打造全栈控制权

OpenAI 硬件负责人 Richard Ho 表示,Jalapeño 处理器旨在与驱动大量 AI 应用的大模型快速、高效地协同工作,认为它将在未来各类大模型迭代版本上都具备良好性能。Jalapeño 是从零开始为大模型推理设计的芯片,将服务于 ChatGPT、Codex、API 以及未来的 Agentic 产品等场景,目标是在大规模交互式 AI 产品中,同时兼顾高吞吐、低延迟和高能效。

有网友评价,软件层面的利润空间无法在吉瓦级的推理计算规模下长期维持,要把每个 token 的成本底线进一步压低,构建定制 ASIC 是必须发生的基础设施转型。

Richard Ho 介绍,Jalapeño 架构优化重点来自 OpenAI 与研究团队的紧密协作,包括对前沿 AI 模型中最关键的内核、内存移动、网络和服务模式的理解。OpenAI 仍在评估芯片的最终性能,但早期测试表明,Jalapeño 能够在重要工作负载上接近硬件理论极限运行。该架构减少了数据传输,并平衡了计算、内存和网络资源,使实际利用率更接近理论峰值性能,相比简单堆叠算力,更强调大模型推理中的真实效率。此外,OpenAI 表示芯片的散热性能甚至比预期的还要好,这也解释了为什么将其称为 "Intelligence Processor",而不仅仅是 "AI 加速器"。

Jalapeño 从初始设计到制造流片仅用了九个月,OpenAI 认为这是高性能先进半导体领域定制 AI 加速器项目中速度最快的 ASIC 开发周期之一。设计周期较快,除了 OpenAI 工程团队与博通的深度合作、博通的资深经验外,OpenAI 还在部分设计和优化流程中使用了 OpenAI 的模型,这表明 AI 不只是芯片的使用者,也开始成为芯片设计流程的一部分。OpenAI 认为,如果 AI 能帮助工程师更快设计出更好的芯片,就有可能降低整个行业的计算成本,并推动先进 AI 更广泛可及。

此前,Hock Tan 曾透露,Jalapeño 加速器相比典型的 AI 图形处理单元,可以节省约 50% 的成本。Jalapeño 并不是一次性的单芯片项目,而是 OpenAI 与博通共建多代计算平台的第一步。博通预计首批芯片将于今年年底前在微软和其他合作伙伴处投入商业使用,但 OpenAI 表示真正的批量生产要到明年才会到来。OpenAI 的目标是到 2029 年,利用定制芯片实现 10 吉瓦的计算能力。

Ho 表示,这让 OpenAI 拥有了全栈控制权。OpenAI 认为,Jalapeño 的发布标志着公司正在进一步扩展自身全栈平台能力,从产品、模型,延伸到底层芯片。有网友感叹,下一场人工智能竞赛的焦点或许在于基础设施,而不仅仅是智能本身。还有网友将 OpenAI 的 Jalapeño 项目和 SpaceX 与 Cursor 之间的交易做对比,认为它们实际上指向的是同一个结构性转变:Jalapeño 代表的是对支撑智能运行的底层基础设施的掌控,包括芯片、算力以及网络;而 Cursor 则代表的是对智能真正被使用的 "工作流层" 的掌控。该网友总结,随着前沿模型能力不断增强,竞争优势正在从模型本身逐渐转移出去,未来十年中赢得 AI 竞争的公司,可能不再只是那些拥有最聪明模型的公司,而是那些能够掌控模型周边最强 "技术栈" 的公司。

OpenAI 总裁兼联合创始人 Greg Brockman 表示,世界正在进入由计算驱动的经济。Jalapeño 是 OpenAI 长期全栈基础设施战略的一部分,目标是让算力更加充足,从而让 AI 对个人和企业而言更快、更可靠、更可负担,并被用于解决更重要的问题。在 OpenAI 看来,全栈能力带来的优势在于,不同层级可以围绕同一个目标进行协同优化,让模型更快、更可靠,也更便宜。更好的基础设施可以提升计算效率,更高的计算效率又能支撑更好的训练和推理,进一步推动更强模型和更好产品。随着产品使用增加,OpenAI 又可以将收入继续投入下一代基础设施,形成围绕算力、模型、产品和商业化的飞轮。

芯片成兵家必争之地,OpenAI 暂避英伟达

OpenAI 的第一款芯片产品,实际上避开了与英伟达、谷歌等直接交锋。目前,训练和推理基础设施正在走向分化。当前,不少推理工作负载仍运行在与训练相似的基础设施上,但随着其加速普及,推理调用量将大幅增长,并逐渐成为主要算力需求来源。相比训练,推理对成本、能效和响应速度更加敏感,也更容易根据具体使用场景进行硬件优化,因此,推理基础设施将越来越偏向专用硬件。

可以看到,OpenAI 目前的发力方向就是该领域,训练继续依赖英伟达等外部芯片,先单独把推理芯片做出来内部使用。

相比之下,英伟达的核心思路不是 "一套训练芯片,一套推理芯片",而是用一套足够通用的 GPU 架构吃掉训练、推理和更广泛的数据中心 AI 工作负载,比如 Hopper、Blackwell 既能训练也能推理。但英伟达会在营销和产品形态上,把某些产品更明确地推向推理,比如现在官方已经把 Blackwell 平台非常明确地包装成大模型推理平台,宣称 GB300 NVL72 在 agentic inference 场景下可把每 token 成本大幅压低,并强调 "AI inference at scale"。

同样地,Google TPU 是为矩阵乘、张量计算、Transformer 深度学习工作负载定制的 ASIC,核心目标是把训推里最核心的张量计算做得更高效,并与自己的软件栈、数据中心、模型体系深度耦合,以此在成本、功耗、互联上优于通用 GPU。当然,Google 也有一些面向推理的产品,但基本是在 TPU 体系里做 "推理优化",像 TPU v5e 集训练和推理(服务)于一体,而 v6e - 8 配置则是为推理优化的,可以让 8 个芯片服务同一个推理工作负载。

有网友说道,一旦推理成为最大的成本账单,就不再是租用芯片,而是开始自己造芯片了,所有还在出租算力的人可能都该有点紧张了。此外,OpenAI 未来一系列芯片产品是否公开发售,或许会对主打 "提供快速、低成本推理,即使在真正重要的情况下也不会出错" 的 Groq 等公司产生影响。

路透社最早在 2023 年报道称,OpenAI 正在探索自研芯片。OpenAI 曾考虑完全自研,并筹集资金实施一项耗资庞大的计划,建设一个被称为 "foundries" 的芯片制造工厂网络,但由于建设该网络所需的成本和时间过高,该公司目前已经搁置了这一雄心勃勃的计划,转而专注于内部芯片设计工作。这一措施背后,是 OpenAI 为代表的 AI 实验室们面临算力短缺问题,难以获得足够计算资源来运行最新、最强大 AI 应用的困境。为此,一些头部公司已经转向自研芯片,希望降低成本,并为当前广泛用于 AI 的 Nvidia GPU 提供替代方案。Meta、Amazon 和 Google 等公司也选择了与博通、Marvell 等企业合作,这些公司能够提供特定的设计服务和知识产权,而这些能力往往很难完全在内部复制。今年 4 月,路透社透露,Anthropic 也在考虑打造自己的 AI 芯片。

未来推理:CPU + 多个定制 AI 加速器

毫无疑问,生成式 AI 对半导体行业最直接的影响之一,就是对 CPU、GPU 和 AI 加速器的需求急速上升。麦肯锡预计,到 2030 年,非生成式 AI 应用带来的逻辑晶圆需求约为 1500 万片,其中约 700 万片将采用 >3 纳米的工艺节点生产,约 800 万片将采用 ≤3 纳米的工艺节点生产。在此基础上,生成式 AI 将额外带来 120 万 - 360 万片、采用 ≤3 纳米工艺节点生产的晶圆需求。

根据当前逻辑晶圆厂规划,到 2030 年,全球预计可生产约 1500 万片采用 ≤7 纳米工艺节点的晶圆。这意味着,生成式 AI 可能造成 100 万至约 400 万片先进逻辑晶圆的潜在供应缺口,尤其集中在 ≤3 纳米的先进制程节点。麦肯锡测算,为了弥补这一缺口,到 2030 年可能需要新建 3 - 9 座逻辑晶圆厂。由于先进逻辑晶圆厂投资规模巨大、建设周期长、设备与供应链复杂,这将成为半导体行业必须提前布局的关键问题。

在训练侧,未来架构预计仍将延续当前高性能集群模式,即数据中心内服务器通过高带宽、低延迟网络连接。麦肯锡在报告中表示,当前主流高性能生成式 AI 服务器通常采用两个 CPU 和八个 GPU 的组合。到 2030 年,大多数训练工作负载仍将使用这种 CPU + GPU 架构。同时,GPU 和 AI 加速器也可能向系统级封装设计演进,并与现有架构长期共存。

而在推理侧,情况将明显不同。到 2030 年,更多面向推理的 AI 服务器预计将采用 CPU 与多个定制 AI 加速器的组合。这些 AI 加速器多数将基于 ASIC。由于 ASIC 可以围绕特定 AI 任务进行优化,在大规模推理场景中有望获得更低成本、更高能效和更优性能。

“内存墙”仍是最大不确定性

值得注意的是,博通 CEO Hock Tan 在路透社采访中透露,目前受 AI 带动的内存需求激增影响,博通在定制芯片上的利润率并不如其部分其他芯片产品高,例如网络交换芯片。Tan 称,AI 芯片需要大量高带宽内存,这对博通定制 AI 芯片产品的利润率构成挑战。他表示,韩国 SK 海力士和三星电子向博通供应内存芯片。

生成式 AI 主要带动了两类 DRAM:一种是连接到 GPU 或 AI 加速器的高带宽内存 HBM,另一种是连接到 CPU 的 DDR 内存。HBM 拥有更高带宽,是当前 AI 训练和高性能推理中不可或缺的关键组件。但与 DDR 相比,HBM 在存储相同数据量时需要更多硅面积,因此也会带来更高制造压力。

SK 海力士是 AI 内存短缺的最大受益者之一,但其 HBM 产能高度紧张,核心客户大概率已经提前锁量。SK 海力士此前表示,2026 年所有 DRAM、HBM 和 NAND 闪存产品均已售罄。Micron 最新财报也显示 AI 内存整体供给紧张可能持续到 2027 年以后,这说明行业整体上 HBM 供给不足。

目前,各大公司一直在扩展内存容量,但内存容量增长并不简单,它正在给硬件和软件设计带来挑战。其中最核心的问题是 "内存墙":内存容量和带宽正在成为系统级计算性能瓶颈。即使计算芯片本身拥有更高峰值性能,如果数据无法足够快地被读取、传输和处理,整体系统性能仍会受限。

目前,行业正在探索多种解决路径。例如,静态随机存取存储器 SRAM 被用于增加近计算内存,但由于成本较高,广泛采用仍受限制。与此同时,未来算法也可能减少每次推理运行所需内存,从而减缓总内存需求增长。

另一个不确定因素来自 AI 加速器架构。相比 CPU + GPU 架构,部分 AI 加速器可能对内存需求更轻。随着推理工作负载增长,到 2030 年 AI 加速器可能更受欢迎,这可能导致内存需求增速低于某些高预期情景。

内容概要:本文围绕列车-轨道-桥梁交互仿真研究,基于Matlab平台构建数值模型,系统分析列车运行过程中轨道与桥梁结构间的动态相互作用机制。研究涵盖多体动学建模、耦合系统运动方程求解、边界条件设定及仿真结果可视化等关键环节,重点揭示高速行车条件下基础设施的振动传递规律与学响应特征。该仿真方法可有效评估结构安全性、舒适性指标及疲劳寿命,为轨道交通工程的设计优化与运维管理提供理论支撑和技术路径。文中配套提供了完整的Matlab代码实现方案及操作说明,便于用户复现、验证和拓展相关研究。; 适合人群:具备Matlab编程基础和结构动学、车辆动学等相关专业知识的研究生、科研人员及从事铁路工程、桥梁工程与交通系统安全评估的工程技术人才,尤其适合开展轨道交通耦合振动课题的研究者。; 使用场景及目标:①用于高校与科研机构进行列车-轨道-桥梁耦合系统动学特性的教学演示与科学研究;②支撑高速铁路桥梁的设计优化、运营安全性评估与减振降噪方案验证;③为复杂交通基础设施的多物理场耦合仿真提供建模思路与代码参考。; 阅读建议:建议读者结合所提供的Matlab代码逐模块深入研读,重点关注系统建模假设、质量-刚度-阻尼矩阵构建方法及数值积分法的实现细节,同时可通过调整参数进行敏感性分析,进一步掌握仿真模型的适用范围与优化方向。
内容概要:本文系统研究了非线性薛定谔方程的物理信息神经网络(PINN)求解方法,提出一种将物理规律嵌入深度学习模型的科学计新范式。通过构建全连接神经网络架构,将非线性薛定谔方程及其初始/边界条件作为损失函数的核心组成部分,实现了在无须大量标注数据的前提下对复值偏微分方程的高精度数值求解。该方法充分利用自动微分技术精确计方程残差,有效融合了数据驱动与模型驱动的优势,在光学孤子传播、量子系统演化等典型场景中展现出优异的逼近能与泛化性能。文中配套提供了完整的Python实现代码,涵盖网络搭建、损失定义、训练优化与结果可视化全流程。; 适合人群:具备Python编程能与深度学习基础知识,熟悉偏微分方程理论及科学计的理工科研究生、科研人员,以及从事光学、量子物理、流体学等领域建模与仿真的工程技术人员。; 使用场景及目标:① 掌握PINN方法的基本原理与实现技巧;② 学习如何将复杂物理方程转化为可训练的神经网络损失项;③ 应用于非线性光学、玻色-爱因斯坦凝聚、水波动学等问题的仿真与预测;④ 为相关科研课题提供可复现的法原型与代码参考。; 阅读建议:建议读者结合所提供的Python代码进行动手实践,重点理解神经网络对微分子的近似机制、损失函数的多任务加权策略以及训练过程中的超参数调优方法,进而可迁移至其他非线性偏微分方程的求解任务,拓展其在交叉学科中的应用边界。
源码下载地址: https://pan.quark.cn/s/a4b39357ea24 微软推出的【AZ-900微软认证】是一项针对初学者的基础级云服务资格认证,其目的在于帮助学习者掌握云概念、微软Azure服务的运作机制以及云解决方案的核心知识。获得这一认证后,考生将能够清晰地理解云计领域的基础术语、服务模式(包括IaaS、PaaS、SaaS等)以及这些服务在Azure平台上的实际应用方式。 在【必过考题】部分,我们可以观察到两个重点议题,它们分别聚焦于PaaS(平台即服务)的概念阐释和云成本的计方式。 在第一个议题中,考生被要求辨别关于PaaS的正确性描述。PaaS平台提供了一个开发环境,但不允许用户直接访问操作系统(Box 1: No)。比如,Azure Web Apps服务可以用来部署web应用,但用户无法直接管理虚拟机或IIS系统。另一方面,PaaS确实具备自动扩展的功能(Box 2: Yes),这表示可以根据实际需求自动增加负载均衡的虚拟机以支持web应用的运行。PaaS框架还为开发人员提供了构建和调整云端应用的工具,预置的应用组件能够有效缩短新应用的编程周期(Box 3: Yes)。 第二个议题同样关注云计理念的理解,尤其强调IT支出从资本性支出(CapEx)向运营性支出(OpEx)的转型思想。传统的IT投资通常被视为CapEx,而云计的按需付费机制使企业能够将这部分开支转化为OpEx,从而在财务规划上获得更大的自由度。 在为AZ-900考试做准备时,考生需要特别关注以下几个核心知识点: 1. **云服务模式**:深入理解IaaS(基础设施即服务)、PaaS和SaaS(软件即服务)之间的差异及其各自的应用情境。 2. **Azure服务*...
源码下载地址: https://pan.quark.cn/s/239a0d536a1e 依据所提供的文件资料,可以归纳出以下核心内容:由清华大学计机系邓俊辉教授精心编纂的法训练营题目合集,对于CSP(中国软件专业人才设计与创业大赛)及PAT(程序设计能测试)这类编程竞赛具有极高的参考价值,堪称一份极具价值的参考资料。此类竞赛普遍对参赛者的法功底和编程技巧提出严苛要求。该合集中的题目与法领域紧密相连,其中包含了“最大红矩形”这一典型题目。所谓最大红矩形题目,其核心任务是针对一个由红色与绿色方格构成的棋盘,寻觅出最大的纯红矩形区域。要攻克这一问题,必须运用数据结构与法的相关知识,特别是栈这一数据结构的应用。 “最大红矩形”问题能够被抽象转化为“直方图最大面积”问题。具体转化方法是将棋盘的每一列视为一个独立的直方图单元,其中红色方格的贡献体现为当前位置与前一个绿色方格所在行数的差值,从而保证每个直方图的基宽恒定为1。随后,借助扫描直方图的技术手段来探寻最大矩形面积。这一过程需要对每个直方图进行系统性遍历,利用栈来记录各直方图的下标信息。一旦检测到当前直方图的高度小于栈顶元素所记录的高度,则意味着遭遇了一个“高点”,此时需计以该“高点”为右边界条件的最大矩形面积。 在编程实践环节,必须高度关注栈的操作细节,以及如何精确地初始化和操纵栈来应对直方图问题。代码实现中,通常配置两个栈,一个用于储存直方图的高度值,另一个用于标记直方图的下标位置。当面对新高度时,需审慎判断当前高度与栈顶高度的相对关系,据此抉择是执行入栈操作还是计面积。针对“低点”(即当前高度小于栈顶),应直接将当前高度纳入栈中;而对于“高点”,则需执行弹出栈顶元素的操作,基于该栈顶元素的高...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值