2025 年 9 月,DeepSeek 发布了 V3.1,明确宣布支持 UE8M0 FP8 精度,和华为昇腾下一代芯片紧密耦合。 两个月后,R1-0528 在昇腾 910B 集群上跑通全量训练与推理。这不是一次简单的适配,这是中国 AI 算力栈自主化的一次标志性握手。
一 · 为什么这件事重要 Why It Matters
过去三年,中国 AI 圈被一个问题反复追问:如果 NVIDIA H100 / B200 买不到了,还能训得动顶级模型吗?
答案以前是"可以,但慢 3 倍,贵 2 倍"。DeepSeek × 华为这次合作,把这个答案改写成 —— "可以,而且在我们自己的软件栈上反而更顺。"
二 · 华为昇腾 Ascend 900 系列 The Silicon
昇腾 910B 单芯片 FP16 算力约 320 TFLOPS,910C 升级到 512 TFLOPS。虽然单卡还略低于 H100 (~700 TFLOPS),但它的杀手锏在另一个地方:
- HBM2e 显存 64GB —— 和 H100 同档,推理大模型不爆显存。
- HCCL 高速互联 —— 类 NVLink 的自研协议,在 8-卡、64-卡集群里线性度不错。
- 可供应 —— 这是所有参数里最重要的一条。
昇腾 920 的量产据传 2026 年第四季度,单芯片算力目标对标 B100 水平。
三 · CANN + MindSpore · 软件栈是真正的门槛 The Real Moat
NVIDIA 的护城河从来不是硅,是 CUDA。华为自研的 CANN (Compute Architecture for Neural Networks) + MindSpore,是这场战役里最关键的一块。
2025-2026 的重大进展:
- vLLM-Ascend / SGLang-Ascend —— 主流推理引擎的官方移植,延迟对齐 CUDA 版。
- Transformer Engine for Ascend —— FP8/FP16 混合精度训练,对标 NVIDIA TE。
- PyTorch 原生支持 —— 用 torch_npu 替换 cuda,绝大多数训练代码几行改动就能跑。
- HuggingFace 集成 —— 主流模型直接 from_pretrained,无需二次转换。
四 · DeepSeek 的贡献 DeepSeek's Side
DeepSeek 做的事更像是"把模型改成对昇腾友好":
- UE8M0 FP8 —— 一种专门针对昇腾下一代硬件优化的浮点格式,在 910C 上精度和带宽双赢。
- MoE 架构对昇腾友好 —— DeepSeek 的专家混合比稠密大模型更能发挥昇腾的并行特性。
- 开源权重 + 昇腾官方镜像 —— 所有企业都可以拿到"下载即可运行"的版本。
2026 年 1 月,DeepSeek-R2 的训练据报道全程在国产集群上完成。这是一个历史性的拐点。
五 · 对企业意味着什么 What It Means for You
- 中央/地方国资背景客户 —— 合规层面不再有"必须用国产芯片"的心理负担,性能跟上了。
- 超大规模场景 —— 金融、能源、运营商,万卡级集群采购成本曲线明显好转。
- 中小企业 / 私有化部署 —— 华为云 ModelArts 提供昇腾的在线算力租用,门槛反而比 NVIDIA 集群低。
- 模型开源生态 —— DeepSeek · Qwen · GLM 都在向昇腾兼容靠拢,迁移负担趋近于零。
过去我们问:"用不用 NVIDIA?"
现在问的是:"这个业务,用哪一种算力栈性价比最优?"
The question has shifted from survival to optimization.
现在问的是:"这个业务,用哪一种算力栈性价比最优?"
The question has shifted from survival to optimization.
六 · 还没解决的问题 Open Issues
- 编译器生态 —— TVM、Triton 在昇腾上的完整性还在追赶。
- 小众算子 —— 新兴研究的 custom op 依然要等 1-2 个版本才原生支持。
- 社区活跃度 —— Stack Overflow 上的"CUDA 问答 : CANN 问答"还是 50:1 的关系。
- 国际市场接受度 —— 海外客户对国产栈的接受度仍是长期课题。
— 青岛火一五信息科技 · 2026 年 4 月 —