新京报贝壳财经讯(记者张晓慧)当OpenClaw、Hermes等智能体将AI从“对话”推向“执行”,Token消耗量在半年内激增6倍,Agentic AI正以前所未有的速度重构算力需求。面对这一产业变局,华为在5月22日举办的鲲鹏昇腾开发者大会2026(KADC2026)上给出系统性回应。

华为公司Fellow、半导体首席科学家廖恒表示,Agentic AI时代,面向预训练、推理Prefill与Decode等各类业务负载,AI芯片的算力、内存带宽、内存容量、互联 IO 带宽四大核心指标在不同应用场景下优先级各有差异;此外,互联的能力直接决定了超节点的能力。

为应对智能体时代对AI算力带来的挑战,廖恒表示,昇腾坚持“芯片架构-系统架构-集群架构-软件架构”的深度协同,持续迭代硬件能力、优化 CANN 等基础软件,平衡生态兼容性与系统运行效率,搭建坚实的算力底座,比如,昇腾950芯片通过互联能力,构建更高带宽、更低延时,以及覆盖范围更大的超节点,系统综合性能等同于超节点规模与单芯片性能规格的乘积。

软件层面,华为昇腾计算产品部部长周斌介绍,CANN 作为昇腾软件底座与生态核心,已实现全面开源开放,为开发者提供完整高效开放的算子开发体系。

为兼容主流开源技术生态,昇腾在算子编程层面实现Triton和TileLang接口100%兼容,开发周期缩短至一周,已支持超600个Triton算子和300个TileLang算子,覆盖主流模型关键算子样例。北京大学计算机学院副研究员杨智提到,TileLang作为tile级编程框架,在DeepSeek V4的算子实践中表现出了高开发效率与高性能,这使得昇腾能够全面支持DeepSeek V4推理。

在通用计算领域,华为公司Fellow、ICT操作系统副首席科学家胡欣蔚表示,算力底座不再仅为模型训练设计,而是面向Agent负载重塑,华为正在构建以鲲鹏为底座的三层智能体系,实现智算-通算异构融合与软硬协同,为大规模智能体应用提供算力基础。

面向Agent构筑高密度低时延高并发的沙箱基础设施,鲲鹏超节点依托多级缓存共享架构,结合增量快照共享与任意状态快速fork能力,回滚性能达十毫秒级,可支撑Agent任务成功率提升10%以上;鲲鹏通信加速底座则采用三项关键技术:灵衢SGL特性降低20%通信时延;透明UBSocket无需修改应用源码,时延再降40%;共享TP技术多连接复用同一传输层连接,降低90%通信内存占用。

此外,鲲鹏超节点借助共享内存实现Buffer Pool预热和快速加载,分布式全局图索引技术使多模态检索性能翻倍,通过上下文缓存减少重复注入,能够实现Agent业务Token开销降低50%。

编辑 徐倩

校对 赵琳