自变量机器人发布全球首个世界统一模型，35天后新一代机器人入驻真实家庭

4月21日，自变量机器人举行发布会，推出新一代机器人进家庭计划，宣布35天后搭载WALL-B的新一代机器人将首批入驻真实家庭。WALL-B是其新一代自研具身智能基础模型，这是全球首个基于世界统一模型架构（World Unified Model，WUM）的具身智能基础模型，标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。

自变量创始人兼CEO王潜在发布会上表示，当前机器人的核心瓶颈不在本体，而在智能。“家庭环境中的每一秒都可能出现全新事件：猫何时跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力与实验室地板完全不同。现有技术无法处理这种随机性和碎片化，机器人进入家庭也被视为‘这个时代最难的技术问题之一’。”

据自变量联合创始人兼CTO王昊介绍，WALL-B真正区别于行业其他方案的核心，是其从VLA到WUM的架构革命。该架构的设计思路类似于Apple Silicon的统一内存架构：在苹果M1芯片之前的Mac上，CPU、GPU、内存各自独立，数据搬运产生的延迟和损耗成为性能瓶颈；苹果通过统一内存架构让所有处理单元共享同一块内存，性能由此大幅提升。

在机器人领域，VLA就类似于M1之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢一次信息。视觉学到的丰富信息，传到动作模块时只剩一个模糊的摘要。WALL-B采用的WUM的核心理念与之相同——将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。

目前，行业内大多数训练模型的数据来自实验室：实验室中的固定光照、固定物体位置、无干扰环境。王昊将这类实验室数据比喻为“糖水数据”——干净、可控、量大，但与真实世界差距显著，尤其与家庭中随时变化的自然光、随意摆放的物品、孩子和宠物的随机动作完全不同。用这类数据训练出的模型，在真实环境中会迅速失效。

与之相对的，王昊比喻为“牛奶数据”，即真实家庭环境中采集的嘈杂、多变、充满随机性的数据，也是自变量选择的数据道路。为了获取这类数据，自变量团队进入了数百个志愿者的真实家庭进行模型训练。

机器人进入家庭的同时，隐私问题不容回避。王潜对此给出了自变量团队明确的解决方案：视觉脱敏——机器人在设备端对原始图像进行实时打码处理，原始图像不离开设备，机器人看到的已经是去除个人特征的场景数据；透明授权——用户主动按下同意键后方可开机，不存在“默认同意”，用户不同意则不开机；用途限定——绝不共享第三方，机器人只认一个主人，发现可疑指令立即锁定。

此前，自变量与58同城合作，将搭载WALL-AS模型的机器人送入真实家庭，与保洁阿姨协同作业，验证了家庭场景的可行性。此次发布则是迈向机器人独立驻家的关键一步。

在商业化落地方面，自变量的时间表也已经明确：35天后，新一代搭载WALL-B并根据家居环境进行硬件升级的机器人将入驻首批用户的家庭。王潜指出，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。

从即日起，自变量开始招募首进家庭机器人的家长，用户可通过官方渠道提交申请。

原标题：《自变量机器人发布全球首个世界统一模型，35天后新一代机器人入驻真实家庭》

栏目编辑：张钰芸题图来源：采访对象提供图片来源：采访对象提供

来源：作者：新民晚报金志刚