DeepMind 正式发布了
Gemini Robotics On -
Device 模型,这是一款专为机器人量身打造的人工智能系统,其亮点在于能够完全在机器人设备本地运行,无需依赖云端连接,极大地赋予了机器人自主性与灵活性。
实际上,该模型是今年 3 月发布的 Gemini Robotics 模型的延伸版本。与前代不同的是,新的 On - Device 版本彻底脱离了云端的束缚,能够独立完成任务。开发者还可以借助自然语言指令对模型进行操控和微调,以适配不同的应用需求。DeepMind 表示,这款本地模型在多项测试中的表现已接近云端版本,整体水平更是超越了市面上其他同类本地模型。
此前,多数机器人系统采用的是混合架构,即在机器人上部署小型模型处理快速响应,而将复杂推理和规划任务交由云端
服务器完成。这种方式虽有一定可行性,但弊端也十分明显。它对网络连接的稳定性和速度要求极高,网络延迟或中断可能导致机器人反应迟缓甚至停止工作;同时,将
传感器数据上传至云端也引发了持续的隐私和安全担忧。
而 Gemini Robotics On - Device 模型是一个完全集成的视觉语言动作(VLA)模型,能够同时处理视觉输入、自然语言指令和动作输出,所有复杂的 “思考” 过程均可在机器人自身的计算单元上完成。与需要云端协同的前代系统 Gemini Robotics 相比,On - Device 模型在自主性方面实现了质的飞跃。它使机器人摆脱了网络限制,能够在网络信号不佳甚至无网络的 “离线” 环境中独立工作,这为其在一些特殊场景的应用提供了可能,如偏远地区的勘探、信号屏蔽的工厂车间,或是对数据隐私要求极高的医疗保健环境中辅助病人等。
从性能表现来看,评测数据显示,On - Device 版本在泛化性能测试中表现出色。在视觉泛化、语义理解和行为泛化等多个维度上,虽略逊于云端版本的 Gemini Robotics,但已大幅超越之前的本地模型。在处理分布外任务和复杂多步骤指令时,该模型对比此前的本地模型展现出了压倒性优势,真正让机器人能够理解人类的自然语言指令,而非简单执行预设程序。
此外,Gemini Robotics On - Device 也是 DeepMind 推出的可供微调的 VLA 模型。开发者可根据需求对其进行调整以获得更佳性能,该模型只需 50 到 100 个演示即可快速适应新任务,表明其能够将基础知识泛化到新任务中。同时,该模型还在尝试适应不同的机器人平台,它初在 ALOHA 机器人上训练,但团队已成功将其迁移到双臂 Franka FR3 机器人和 Apptronik 的
Apollo 人形机器人上。在双臂机器人 Franka 上,它能执行通用指令,处理未见过的物体和场景,完成如折叠连衣裙等灵巧任务或工业皮带装配任务;在 Apollo 人形机器人上,面对不同的机械结构,它同样展现出强大的泛化能力,能遵循自然语言指令操作各种物体,包括训练时未见过的新物体。