阿里巴巴的 Qwen 团队于周二发布了 Qwen-Robot Suite，这是一组三款基础模型，旨在通过统一的软件栈为机器人导航、操作以及基于物理的世界仿真提供动力。该公司于 2026 年 6 月 16 日在 Twitter 上公布了该套件，并将这项技术定位为其所称的“具身智能的全栈”。阿里巴巴开发这些模型以应对机器人领域的一个核心挑战：尽管目前 AI 代理依赖大型语言模型来进行决策，但物理机器人需要能够处理基于物理的故障模式的生成式 AI 系统，而不是基于提示的推理。该发布体现了阿里巴巴覆盖芯片、云基础设施、AI 模型和应用的纵向整合战略，而机器人是中国具身 AI 开发中最具“物理”表达的方向。

Qwen-Robot Suite 将三款专用模型统一起来

Qwen-Robot Suite 由三款基础模型组成，每一款分别处理机器人智能的不同方面。Qwen-RobotNav 负责移动和导航任务。Qwen-RobotManip 处理对物体的操作以及与物理环境的交互。Qwen-RobotWorld 对支撑导航与操作的物理进行仿真。根据阿里巴巴的说法，每个模型都能独立运行，但在组合使用时会形成一个连贯的软件栈。该公司将该架构描述为机器人的操作系统层，而非硬件。

Qwen-RobotNav 在单一模型内统一了五项导航任务：指令跟随、点到目标导航、物体搜索、目标跟踪以及自动驾驶。该模型提供了参数化接口，包含可配置的 token 预算、时间衰减以及每个摄像头的权重，规划器可在运行过程中对其进行重新配置。阿里巴巴在所有参数上进行了随机化，并以 1560 万个样本训练了该模型。

Qwen-RobotManip 解决了不同机器人平台之间动作表示不兼容的挑战。Franka 机械臂通过关节角度进行操作，而 ALOHA 机器人则通过夹爪位置与朝向来表示动作。类人机器人使用全身坐标系。阿里巴巴通过开源机器人数据集和人类视频合成了约 3.81 万小时的训练数据，以弥合这些不兼容的动作空间。

Qwen-RobotWorld 作为一个以语言为条件的视频世界模型，将自然语言视为通用动作接口。模型可在不同类型机器人上处理诸如“拿起红色杯子并把水浇到花上”之类的指令，包括夹爪、自动驾驶车辆以及移动导航代理。Embodied World Knowledge 语料库涵盖 860 万组视频-文本配对，总计在操作、自动驾驶、室内导航以及人到机器人迁移等场景中覆盖 2 亿帧。

模型在多个机器人基准测试中取得领先排名

Qwen-RobotNav 在 VLN-CE RxR 上实现了 76.5% 的成功率，该基准用于衡量真实环境中的视觉与语言导航能力。该模型在 EVT-Bench 上的跟踪性能也达到了 90%，EVT-Bench 用于评估代理持续跟随移动目标的能力。

Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一，且较此前方法提升了 20%。该模型的表现源于其“先对齐”的跨具身训练策略。

Qwen-RobotWorld 在 EWMBench 和 DreamGen Bench 上均排名第一，这两个基准用于评估世界模型是否能够预测并生成逼真的物理环境。该模型在 WorldModelBench 与 PBench 上击败了所有开源模型。阿里巴巴表示，该模型在覆盖牛顿定律、质量守恒、流体动力学与重力的物理一致性测试中取得了满分。

训练数据来自开源机器人数据集，覆盖数百万样本

阿里巴巴使用带有导航参数随机化的方式，用 1560 万个样本训练了 Qwen-RobotNav。该公司未披露用于导航训练的具体数据集来源。

对于 Qwen-RobotManip，阿里巴巴从开源机器人数据集和人类视频中合成了约 3.81 万小时的训练数据。该公司表示，在训练操作模型时并不依赖专有数据采集。

Qwen-RobotWorld 的 Embodied World Knowledge 语料库包含 860 万组视频-文本配对，覆盖 2 亿帧。该语料库包括 590 万个操作样本，覆盖 1300+ 项技能以及 20+ 种机器人形态。自动驾驶数据来自 Waymo、NVIDIA PhysicalAI-AD 和 Bench2Drive 等数据集。室内导航数据来源于 VLNVerse。人到机器人迁移数据覆盖 14 个机器人手臂。

真实世界机器人部署仍需数年

阿里巴巴表示，真实世界的机器人部署仍需数年。该公司承认，受控演示环境与可靠的真实世界运行之间存在差距。RoboCasa365、LIBERO-Plus 和 RoboTwin-Clean2Rand 是仿真基准，而非真实世界部署场景。真实世界部署会引入传感器噪声、执行器漂移以及边界案例，而阿里巴巴将这些视为持续存在的挑战。

这些模型是为在制造商硬件上运行而设计的软件系统，包括 AgileX、Franka、Universal Robots 和 Unitree。阿里巴巴未披露定价、具体部署时间表，也未披露除试点项目之外哪些客户将获得访问权限。

FAQ

阿里巴巴在 2026 年 6 月 16 日宣布了什么？

阿里巴巴的 Qwen 团队于周二宣布了 Qwen-Robot Suite，即在 2026 年 6 月 16 日发布的一组三款基础模型：用于导航的 Qwen-RobotNav，用于操作的 Qwen-RobotManip，以及用于基于物理的世界仿真的 Qwen-RobotWorld。该公司将该套件定位为机器人具身智能的统一软件栈。

Qwen-Robot 模型取得了哪些基准测试结果？

Qwen-RobotNav 在 VLN-CE RxR 上实现了 76.5% 的成功率，在 EVT-Bench 上为 90%。Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一，且较此前方法提升了 20%。Qwen-RobotWorld 在 EWMBench、DreamGen Bench、WorldModelBench 和 PBench 等开源模型中排名第一，并且在物理一致性测试中取得了满分。

Qwen-Robot 模型何时会部署到真实世界的机器人中？

阿里巴巴表示，真实世界的机器人部署仍需数年。该公司未披露具体部署时间表、定价，也未披露除试点项目之外哪些客户将获得访问权限。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。