又一个 SOTA 基础模型开源盛鹏配资,而且依然是国产。
刚刚,阶跃星辰兑现了 WAIC 上的承诺,将最新多模态推理模型 Step-3 正式开源!
在 MMMU 等多个多模态榜单上,它一现身就取得了开源多模态推理模型新 SOTA 的成绩。
并且速度飞快,在 Hopper GPU 上每秒可以解码 4039 个 Token(4K 上下文、FP8、无 MTP),是 DeepSeek-V3 的 174%。
这一表现,也给大模型解码设定了新的帕累托前沿(资源分配的一种理想状态)。
另外,Step-3 采用了模型 -Infra 一体化设计,因此性价比也极高。
它有 321B 参数,但可以运行在 8 块 48GB 的 GPU 上,处理多达 80 万个 token。
如果直观比较,Step-3 在 H20 上的解码成本仅有 DeepSeek-V3 的 30%。
Huggingface 工程师评价,这种模型 -Infra 共同设计的理念,代表了一种前进方向。
百万 Token 解码成本不到 4 毛
Step-3 是一款 MoE 模型,包含 48 个专家,总参数量 321B,其中 316B 为语言模型,5B 为视觉编码器,激活参数量则为 38B(3 个专家)。
在 MMMU、AIME25、LiveCodeBench 等多个数学、代码及多模态榜单中,Step-3 都达到了开源 SOTA 水平。
而且 Step-3 主打一个高效能,在 4K 上下文长度下,平均解码吞吐达到了 3910token/GPU/ 秒,峰值 4039 token/GPU/ 秒,比 DeepSeek-V3 的峰值高 74%。
成本方面,Step-3 使用 H20+H800 的异构组合,8K 长度下每百万 Token 成本为 0.055 美元,合人民币不到 4 毛钱。
相比于只用 H800 的 DeepSeek-V3,Step-3 激活参数量更高,但成本只有 V3 的 80%。
如果对比采用同样异构组合的 Qwen MoE,Step-3 的成本也要少将近 12%。
如果不使用异构,Step-3 在各个芯片上的成本,也低于 DeepSeek-V3 和 Qwen。
例如在 32K 长度下,H20 计算卡上,Step-3 的解码成本只有 V3 的 30%
盛鹏配资
特别值得一提的是,在昇腾 910B 上,Step-3 的解码成本甚至比华为自家的盘古大模型还要低。
之所以能实现如此高的性价比,关键就在于 Step-3 采用了模型 -Infra 协同设计。
模型 -Infra 协同设计
Step-3 通过"模型—系统"一体化思路,把注意力、前馈网络和集群调度当作同一个优化对象,而不是单独微调某个算子。
核心中的核心是阶跃自研的 MFA(Multi-Matrix Factorization Attention,多矩阵因子分解)注意力机制。
MFA 在 Query-Key 路径上进行低秩分解,并让多个查询头共享同一组 Key/Value 表示,从根源上压缩 KV 缓存和乘加量。
技术报告显示,Step-3 的 KV 缓存大小小于 DeepSeek-V3,使得 Step-3 更适用于长上下文场景。
并且与传统稀疏或线性注意力不同,MFA 还特地把算力 - 带宽比调到刚好略低于主流 GPU 的屋脊线,让同一套权重在高带宽卡和算力卡上都能维持高利用率。
系统层面,阶跃团队提出了 AFD(Attention-FFN Disaggregation)机制。
传统情况下,模型关于 Attention 和 FNN 的推理计算任务,会同时交给同一组 GPU 同时处理,常常导致资源浪费。
AFD 则把注意力和 FFN 分拆到各自最擅长的 GPU 群组,通过专门的三阶段流水线把隐藏态在两端之间"穿针引线"。
这样一来,每类算子都能选用最合拍的硬件和并行策略,同时流水线把通信延迟掩藏在计算之下,实现小规模集群就能跑满卡的解码吞吐。
为支撑这一细粒度拆分,阶跃团队编写了 StepMesh 通信库,通过 GPUDirect RDMA 实现,SM 占用为 0,可在子毫秒时间内完成双向流式传输。
并且 StepMesh 库已随模型一同开源,提供可跨硬件的标准部署接口。
One More Thing
Hugging Face 模型榜单,已经被中国开源模型占据主导,前十名中有 8 个模型全都来自中国。
其中第一名是智谱 AI 的 GLM-4.5,第二名是腾讯推出的混元世界模型,4-6 名为不同版本的 Qwen。
之后的国产模型包括智谱 GLM-4.5 的 Air 版本,以及同一团队的 Wan2.2 视频生成模型,第十名则是上海 AI Lab 的 Intern-S1。
Kimi-K2 则位列第十一,之前也曾进入过前十,这次的 Step-3 也位列第一页。
此外,第一页中还能看到字节 Seed、昆仑万维、上交大 PowerInfer 等中国团队研发的模型。
并且这些厂商都选择了把自家的王牌模型直接开源,而不是发布新一代才开源上一代。
在开源世界,国产模型已成为当之无愧的领军者。
Github:
https://github.com/stepfun-ai/Step3
Hugging Face:
https://huggingface.co/stepfun-ai/step3
魔搭 ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技术 blog:
https://www.stepfun.com/research/zh/step3
StepMesh 开源地址:
https://github.com/stepfun-ai/StepMesh
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考� �
� � 点亮星标 � �
科技前沿进展每日见盛鹏配资
富灯网提示:文章来自网络,不代表本站观点。