硅基流动 SiliconCloud 上线阶跃星辰 Step-3

Qwen3.5-9B

Qwen3.5-9B

文本生成
Qwen
Qwen3.5

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万

硅基流动大模型云服务平台 SiliconCloud 已上线阶跃星辰最新开源的多模态推理模型 Step-3。

该模型采用 MoE 架构,总参数量 321B,激活参数量 38B。它拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。在多个数学、代码及多模态榜单中,Step-3 都达到了开源 SOTA 水平。

SiliconCloud 上的 Step-3 支持 64K 最大上下文长度,价格为输入 4 元 / M Tokens,输出为 10 元 / M Tokens。

Image

Image

欢迎通过以下方式使用 Step-3,国内站与国际站新用户可分别自动获取 14 元或 1 美元赠金体验。

国内站在线体验

https://cloud.siliconflow.cn/models

国际站在线体验

https://cloud.siliconflow.com/models

第三方应用接入教程

https://docs.siliconflow.cn/cn/usercases/

开发者 API 文档

https://docs.siliconflow.cn/cn/api-reference/chat-completions/

模型效果

在 SiliconCloud 的 Playground 上,我们让 Step 3 复现硅基流动官网的 HTML 页面代码。

图片理解与代码生成过程(部分)

最终效果如下。除 Logo 外,几乎完美复刻了硅基流动网站内容,并且模型输出速度极快。

Image

模型特点及性能

Step 3 重点解决多模态协同、系统解码成本与推理效率问题,在训练路径、架构设计和推理部署上做了系统级优化。该模型采用端到端设计,在实现视觉-语言推理顶级性能的同时,最大限度地降低解码成本。通过多重矩阵分解注意力(MFA)与注意力-前馈网络解耦(AFD)的协同设计,Step3 在旗舰级和低端加速器上均能保持卓越效率。

根据官方公布的基准测试数据,Step-3在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05) 等评测集上都达到了行业领先水平。

Image

您可能感兴趣的与本文相关的镜像

Qwen3.5-9B

Qwen3.5-9B

文本生成
Qwen
Qwen3.5

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值