阿里巴巴的 Qwen 团队于周二发布了 Qwen-Robot Suite,这是一组三款基础模型,旨在通过统一的软件栈为机器人导航、操作以及基于物理的世界仿真提供动力。该公司于 2026 年 6 月 16 日在 Twitter 上公布了该套件,并将这项技术定位为其所称的“具身智能的全栈”。阿里巴巴开发这些模型以应对机器人领域的一个核心挑战:尽管目前 AI 代理依赖大型语言模型来进行决策,但物理机器人需要能够处理基于物理的故障模式的生成式 AI 系统,而不是基于提示的推理。该发布体现了阿里巴巴覆盖芯片、云基础设施、AI 模型和应用的纵向整合战略,而机器人是中国具身 AI 开发中最具“物理”表达的方向。
Qwen-Robot Suite 由三款基础模型组成,每一款分别处理机器人智能的不同方面。Qwen-RobotNav 负责移动和导航任务。Qwen-RobotManip 处理对物体的操作以及与物理环境的交互。Qwen-RobotWorld 对支撑导航与操作的物理进行仿真。根据阿里巴巴的说法,每个模型都能独立运行,但在组合使用时会形成一个连贯的软件栈。该公司将该架构描述为机器人的操作系统层,而非硬件。
Qwen-RobotNav 在单一模型内统一了五项导航任务:指令跟随、点到目标导航、物体搜索、目标跟踪以及自动驾驶。该模型提供了参数化接口,包含可配置的 token 预算、时间衰减以及每个摄像头的权重,规划器可在运行过程中对其进行重新配置。阿里巴巴在所有参数上进行了随机化,并以 1560 万个样本训练了该模型。
Qwen-RobotManip 解决了不同机器人平台之间动作表示不兼容的挑战。Franka 机械臂通过关节角度进行操作,而 ALOHA 机器人则通过夹爪位置与朝向来表示动作。类人机器人使用全身坐标系。阿里巴巴通过开源机器人数据集和人类视频合成了约 3.81 万小时的训练数据,以弥合这些不兼容的动作空间。
Qwen-RobotWorld 作为一个以语言为条件的视频世界模型,将自然语言视为通用动作接口。模型可在不同类型机器人上处理诸如“拿起红色杯子并把水浇到花上”之类的指令,包括夹爪、自动驾驶车辆以及移动导航代理。Embodied World Knowledge 语料库涵盖 860 万组视频-文本配对,总计在操作、自动驾驶、室内导航以及人到机器人迁移等场景中覆盖 2 亿帧。
Qwen-RobotNav 在 VLN-CE RxR 上实现了 76.5% 的成功率,该基准用于衡量真实环境中的视觉与语言导航能力。该模型在 EVT-Bench 上的跟踪性能也达到了 90%,EVT-Bench 用于评估代理持续跟随移动目标的能力。
Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一,且较此前方法提升了 20%。该模型的表现源于其“先对齐”的跨具身训练策略。
Qwen-RobotWorld 在 EWMBench 和 DreamGen Bench 上均排名第一,这两个基准用于评估世界模型是否能够预测并生成逼真的物理环境。该模型在 WorldModelBench 与 PBench 上击败了所有开源模型。阿里巴巴表示,该模型在覆盖牛顿定律、质量守恒、流体动力学与重力的物理一致性测试中取得了满分。
阿里巴巴使用带有导航参数随机化的方式,用 1560 万个样本训练了 Qwen-RobotNav。该公司未披露用于导航训练的具体数据集来源。
对于 Qwen-RobotManip,阿里巴巴从开源机器人数据集和人类视频中合成了约 3.81 万小时的训练数据。该公司表示,在训练操作模型时并不依赖专有数据采集。
Qwen-RobotWorld 的 Embodied World Knowledge 语料库包含 860 万组视频-文本配对,覆盖 2 亿帧。该语料库包括 590 万个操作样本,覆盖 1300+ 项技能以及 20+ 种机器人形态。自动驾驶数据来自 Waymo、NVIDIA PhysicalAI-AD 和 Bench2Drive 等数据集。室内导航数据来源于 VLNVerse。人到机器人迁移数据覆盖 14 个机器人手臂。
阿里巴巴表示,真实世界的机器人部署仍需数年。该公司承认,受控演示环境与可靠的真实世界运行之间存在差距。RoboCasa365、LIBERO-Plus 和 RoboTwin-Clean2Rand 是仿真基准,而非真实世界部署场景。真实世界部署会引入传感器噪声、执行器漂移以及边界案例,而阿里巴巴将这些视为持续存在的挑战。
这些模型是为在制造商硬件上运行而设计的软件系统,包括 AgileX、Franka、Universal Robots 和 Unitree。阿里巴巴未披露定价、具体部署时间表,也未披露除试点项目之外哪些客户将获得访问权限。
阿里巴巴在 2026 年 6 月 16 日宣布了什么?
阿里巴巴的 Qwen 团队于周二宣布了 Qwen-Robot Suite,即在 2026 年 6 月 16 日发布的一组三款基础模型:用于导航的 Qwen-RobotNav,用于操作的 Qwen-RobotManip,以及用于基于物理的世界仿真的 Qwen-RobotWorld。该公司将该套件定位为机器人具身智能的统一软件栈。
Qwen-Robot 模型取得了哪些基准测试结果?
Qwen-RobotNav 在 VLN-CE RxR 上实现了 76.5% 的成功率,在 EVT-Bench 上为 90%。Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一,且较此前方法提升了 20%。Qwen-RobotWorld 在 EWMBench、DreamGen Bench、WorldModelBench 和 PBench 等开源模型中排名第一,并且在物理一致性测试中取得了满分。
Qwen-Robot 模型何时会部署到真实世界的机器人中?
阿里巴巴表示,真实世界的机器人部署仍需数年。该公司未披露具体部署时间表、定价,也未披露除试点项目之外哪些客户将获得访问权限。
相关快讯