Agentic AI爆发，华为给出国产算力系统性解法

新京报贝壳财经讯（记者张晓慧）当OpenClaw、Hermes等智能体将AI从“对话”推向“执行”，Token消耗量在半年内激增6倍，Agentic AI正以前所未有的速度重构算力需求。面对这一产业变局，华为在5月22日举办的鲲鹏昇腾开发者大会2026（KADC2026）上给出系统性回应。

华为公司Fellow、半导体首席科学家廖恒表示，Agentic AI时代，面向预训练、推理Prefill与Decode等各类业务负载，AI芯片的算力、内存带宽、内存容量、互联 IO 带宽四大核心指标在不同应用场景下优先级各有差异；此外，互联的能力直接决定了超节点的能力。

为应对智能体时代对AI算力带来的挑战，廖恒表示，昇腾坚持“芯片架构-系统架构-集群架构-软件架构”的深度协同，持续迭代硬件能力、优化 CANN 等基础软件，平衡生态兼容性与系统运行效率，搭建坚实的算力底座，比如，昇腾950芯片通过互联能力，构建更高带宽、更低延时，以及覆盖范围更大的超节点，系统综合性能等同于超节点规模与单芯片性能规格的乘积。

软件层面，华为昇腾计算产品部部长周斌介绍，CANN 作为昇腾软件底座与生态核心，已实现全面开源开放，为开发者提供完整高效开放的算子开发体系。

为兼容主流开源技术生态，昇腾在算子编程层面实现Triton和TileLang接口100%兼容，开发周期缩短至一周，已支持超600个Triton算子和300个TileLang算子，覆盖主流模型关键算子样例。北京大学计算机学院副研究员杨智提到，TileLang作为tile级编程框架，在DeepSeek V4的算子实践中表现出了高开发效率与高性能，这使得昇腾能够全面支持DeepSeek V4推理。

在通用计算领域，华为公司Fellow、ICT操作系统副首席科学家胡欣蔚表示，算力底座不再仅为模型训练设计，而是面向Agent负载重塑，华为正在构建以鲲鹏为底座的三层智能体系，实现智算-通算异构融合与软硬协同，为大规模智能体应用提供算力基础。

面向Agent构筑高密度低时延高并发的沙箱基础设施，鲲鹏超节点依托多级缓存共享架构，结合增量快照共享与任意状态快速fork能力，回滚性能达十毫秒级，可支撑Agent任务成功率提升10%以上；鲲鹏通信加速底座则采用三项关键技术：灵衢SGL特性降低20%通信时延；透明UBSocket无需修改应用源码，时延再降40%；共享TP技术多连接复用同一传输层连接，降低90%通信内存占用。

此外，鲲鹏超节点借助共享内存实现Buffer Pool预热和快速加载，分布式全局图索引技术使多模态检索性能翻倍，通过上下文缓存减少重复注入，能够实现Agent业务Token开销降低50%。

编辑徐倩

校对赵琳