
具身智能让GPU重新回到它最完整的形态:既要算AI,也要算图形,还要算物理。
作者|王博
5月18日晚,一台名为“小飞”的机器狗走上了摩尔线程年度产品发布会的舞台,表演了一个侧空翻。
机器狗表演侧空翻,今天已经不算一件稀奇事。但这一次,“小飞”的侧空翻有一个特殊之处:这是业内首次在基于国产硬件的仿真平台中实现模型训练,并在国产端侧芯片上部署,最终实现Sim-to-Real(仿真到现实)真机验证。
换句话说,这不只是一次机器狗动作展示,而是一次国产具身智能基础设施的闭环验证:从云端训练,到仿真验证,再到端侧部署,一条原本高度依赖海外软硬件生态的链路,开始在国产平台上跑通。
对国内具身智能行业来说,这比一次漂亮的动作演示更重要。
表面上看,摩尔线程在这场主题为“词元时代,万物智能”的年度产品发布会上,展示的是一套“云-边-端”全栈智算矩阵:从万卡级夸娥(KUAE)智算集群,到自研“长江”SoC驱动的智能终端MTT AICUBE、MTT AIBOOK,再到首个全栈具身智能仿真平台MT Lambda,以及持续进化的MUSA生态。

摩尔线程创始人、董事长兼CEO 张建中
但放到具身智能产业里看,「甲子光年」看到的是,摩尔线程这样一家采用全功能GPU路线的国产芯片公司,正在试图把AI计算、图形渲染、物理仿真和端侧部署连接起来,打造机器人进入真实世界之前的国产基础设施。
他们想证明的一件事:国产算力平台可以进入具身智能的核心训练与部署环节。
1.完全形态的“全功能GPU”,才能胜任具身智能
要理解摩尔线程为什么要讲具身智能,先要理解它为什么反复强调“全功能GPU”。
全功能GPU(Universal GPU),是指基于统一系统架构,同时具备功能完备性与精度完整性的GPU。它并不只是AI加速器,而是同时覆盖AI计算、通用计算和图形渲染等能力的通用算力平台。全功能GPU在工作效率、生态完整多样性以及兼容性等方面更具有优势,能够更好地适应未来新兴及前沿计算加速应用场景的需求。
它和TPU、NPU的本质区别是通用性与专用性。打个比方,TPU、NPU更像“专才”,通常围绕AI计算、深度学习推理或特定模型任务做定制优化,在目标场景下可以获得更高能效和性价比,但能力边界相对明确;全功能GPU更像“通才”,优势在于能在同一架构内同时承载AI、图形、物理和视频等多类计算任务。
在AI大模型时代,GPU最容易被理解为训练和推理芯片,评价标准也集中在矩阵计算、训练吞吐、推理效率、显存容量和互联能力上。但具身智能处理的不仅是单纯的文本和图像,而是一个多模态的物理世界,这就对芯片提出了更高的要求。
一个机器人要学会行动,至少需要三类核心能力。
第一,是AI计算能力。具身智能需要训练VLA模型、世界模型、强化学习策略、模仿学习模型,以及面向复杂任务的具身大模型。
第二,是图形渲染能力。机器人需要在足够真实的虚拟环境中训练和评测,仿真环境的光照、材质、遮挡、纹理和几何细节,会直接影响感知模型的效果。
第三,是物理仿真能力。机器人不只“看”世界,还要和世界发生接触。抓取、跳跃、行走、碰撞、摩擦、柔性物体变形,这些都需要大量物理计算支撑。
这也是全功能GPU路线在具身智能时代获得新解释的地方。
摩尔线程是国内为数不多坚持全功能GPU路线的公司。摩尔线程基于自研MUSA架构的全功能GPU,可以在单颗芯片上同时支持AI计算、图形渲染、物理仿真、科学计算和超高清视频编解码,为具身智能提供“渲染+仿真+AI训推”一体化的通用算力底座。
这可以解决具身智能研发中的一个问题——“割裂感”。
对比传统架构来看,物理仿真可能运行在专门的物理引擎上,图形渲染依赖图形显卡,AI训练依赖AI加速芯片。开发者需要在不同平台之间反复迁移数据、转换格式、适配框架。这种割裂不仅拖慢研发效率,也会进一步拉大仿真和现实之间的差距。
而具身智能恰恰需要高同步性。
一只机器狗在虚拟环境里学习侧空翻,背后同时发生的是物理计算、图形渲染和AI训练。物理引擎要模拟它的重心、关节、落地冲击和姿态调整;渲染引擎要生成足够真实的视觉环境;AI训练引擎要在一次次试错中优化策略。

机器狗“小飞”现场演示
如果这些环节还在割裂的系统中,数据流动和系统调度都会成为瓶颈。
全功能GPU路线试图解决的正是这个问题:在同一套架构内,统一支撑AI计算、图形渲染和物理仿真,让具身智能的训练、仿真和部署更接近一个连续工作流。
这也是摩尔线程切入具身智能的合理性。它并不是从机器人本体切入,也不是要成为一家机器人公司,它进入的是机器人背后的基础设施层:算力、仿真、训练、数据生成和端侧部署。
具身智能让GPU重新回到它最完整的形态:既要算AI,也要算图形,还要算物理。
2.MT Lambda解决了哪些问题
MT Lambda是摩尔线程具身智能叙事里的关键产品。
这次发布会,摩尔线程将MT Lambda定义为全栈具身智能仿真平台,旨在赋能用户构建数据合成、策略训练、仿真验证的高效工作流,MT Lambda也成为了首个全栈国产化具身智能仿真平台。
MT Lambda构建了从底层算力、核心引擎到上层框架及工具的完整解决方案:其底层基于摩尔线程全功能GPU,实现渲染、物理、AI计算在同一芯片中完成,数据“零拷贝”;中间层深度融合自研物理、渲染、AI三大引擎;上层则提供MT Lambda-Lab具身策略开发与训练平台以及MT Lambda-Sim高保真物理仿真与渲染平台。

首个全栈国产化具身智能仿真平台MT Lambda
对比英伟达体系,MT Lambda最接近NVIDIA Isaac Sim与Isaac Lab的组合:前者负责机器人仿真、测试和合成数据生成,后者服务强化学习、模仿学习和策略训练。
但从摩尔线程这次披露的能力看,MT Lambda并不只停留在具身智能仿真和策略训练层面,它还把图形渲染、3DGS、生成式渲染和世界模型能力纳入同一套工作流,因此又带有Omniverse和Cosmos的部分影子。
换句话说,MT Lambda不能被简单理解为一个仿真平台,这是摩尔线程试图基于国产全功能GPU和MUSA生态,搭建的一套物理AI软件栈。
它要解决的核心问题,可以拆成三个层次:世界如何运动,世界如何被看见,机器人如何学会行动。
第一是物理引擎。
物理引擎决定虚拟世界是否可信。对于机器人来说,虚拟环境不能只是视觉上像现实,更要在物理规律上接近现实。如果虚拟世界里的接触、碰撞、摩擦、重力、关节反馈不可信,机器人在里面学到的策略,到了真实世界就很容易失效。
MT Lambda在物理引擎层面,集成MuJoCo Warp MUSA、Newton MUSA等开源后端,以及摩尔线程自研AlphaCore物理引擎,基于MUSA架构实现并行求解,支持高精度、可微分的物理计算。在典型仿真负载下,整体仿真吞吐效率可达约30倍的提升。
其中MuJoCo Warp MUSA为广泛用于机器人训练的MuJoCo物理引擎增加对MUSA架构的原生支持。在四足机器狗训练任务中,相较CPU方案可实现最高40倍训练加速;在宇树G1人形机器人动作跟踪任务中,MTT S5000单卡约4.8天完成模仿学习收敛。分布式扩展方面,8卡训练收敛加速达8倍以上,32卡最快约3.6小时完成训练。
这意味着,国产全功能GPU开始进入机器人强化学习、模仿学习和物理仿真训练的底层环节。

MT Lambda Lab 具身智能高效开发与训练
第二是渲染引擎。
机器人需要依赖视觉、深度、语义等信息理解环境。如果仿真环境的视觉真实度不够,模型在虚拟世界中学到的感知能力,迁移到真实世界时就可能出现偏差。
MT Lambda搭载MT Photon光子引擎,融合光线追踪与混合渲染能力,同时引入3DGS(三维高斯溅射)和自研MTAGR(AI生成式渲染),以提升仿真画面的真实感、渲染帧率和实时渲染能力。
这一层能力对于具身智能尤其重要。
过去,机器人仿真更像是在虚拟世界里“搭积木”;未来,具身智能仿真要越来越接近“生成世界”。通过3DGS、光线追踪和生成式渲染,开发者可以更快构建高真实感环境,生成海量合成数据,用于训练、评测和验证。
合成数据正在从真实数据的补充,变成具身智能训练基础设施的一部分。
第三是AI计算与训练引擎。
MT Lambda集成深度适配PyTorch的Torch MUSA框架,支持VLA模型开发部署,并融合强化学习与模仿学习训练范式,为人形机器人、具身智能体的感知决策、自主学习和行为迭代提供AI训练与推理底层支撑。
这里的技术链路可以理解为:VLA模型负责把视觉、语言和动作连接起来;模仿学习让机器人学习人类或专家轨迹;强化学习让机器人在仿真环境中通过反复试错优化策略;世界模型则帮助智能体形成对环境变化的预测能力。
“小飞”的侧空翻,正是这一套链路的一个现场化展示,可以说这是“仿真—训练—部署”的可视化结果。
3.国产GPU平台进入具身智能核心
MT Lambda并不是单独存在,它被放在摩尔线程“云—边—端”全栈智算矩阵中。
在云侧,夸娥智算集群负责大规模训练、强化学习训练、大规模并行仿真和模型迭代。夸娥万卡级智算集群已落地,在Dense大模型训练中的模型算力利用率(MFU)达60%,在MoE大模型上达40%,有效训练时长达90%,训练线性扩展效率达95%。
在中间层,MT Lambda负责数据合成、仿真、策略训练,把虚拟训练和真实部署连接起来。
在端侧,基于“长江”SoC的MTT E300 AI模组负责低延迟、高可靠的本地推理与实时响应。E300可提供50TOPS本地算力,可直接部署于机器人终端,实现感知、决策、执行的本地化闭环。
这三者合在一起,才构成摩尔线程在具身智能中的真正位置:它不在台前制造一台机器人,而是在后台搭建机器人所需的国产算力与仿真底座。

摩尔线程赋能具身智能
如果说英伟达已经把物理AI变成一套从数据中心到机器人端侧的系统叙事,那么摩尔线程正在尝试以国产全功能GPU为底座,补上中国具身智能产业所需的算力、仿真和部署闭环。
这也是这场发布会的真正信号。
过去,国产GPU的竞争更多围绕AI训推展开。但具身智能把竞争维度重新拉宽了,谁能同时支撑大模型训练、物理仿真、图形渲染和端侧部署等,谁才有可能成为物理AI时代的底座公司。
同时,摩尔线程积极拓展具身生态“朋友圈”,通过与光轮智能在合成数据等关键领域共筑国产具身智能仿真底座,以及与光线云联合打造RaysTwins具身仿真平台等深度合作,共同推动技术成果加速转化落地。
“小飞”的侧空翻只是一个开始。
当AI从数字世界走向物理世界,算力要处理的不再只是文字和图片,还包括空间、碰撞、摩擦、重力和行动。对国产GPU来说,真正的挑战或许并非某一款芯片,而是要看其能否支撑一个新的产业范式:从云端训练、物理仿真到端侧执行等,都在自己的软硬件体系里完成。
具身智能的新一阶段竞争,正在机器人背后发生。
(封面图及文中配图来源:摩尔线程)