推荐文章更多

推荐报告更多

跨 OS GUI 智能体基础设施白皮书——重新定义人机交互自动化

数字经济 · 数字化 · 人工智能

2026-04-13

AI原生组织：OpenClaw推动组织形态重塑

具身智能最“脏”的活，被三个老炮干成了亿元生意

作者：刘杨楠

编辑：栗子 2026-04-17

在噪声中坚持做难而正确的事。

作者｜刘杨楠

编辑｜栗子

具身智能行业，数据一直是关键卡点。模型厂商需要大量来自物理世界的真实数据训练模型，让机器人变得更聪明，能够更快走进家庭和工厂。

于是，各方大建数采中心，具身数据正在越来越多，一些公司则定下了在2026年发布百万小时级数据集的目标。

然而，在这海量的数据中，真正能用于训练具身模型，让机器人“聪明”起来的数据，却仍然稀缺。因为大多数数据处于一种“混沌状态”：时间戳无法对齐、模态不同步、标注信息不完整、数据结构不统一。

造成这种“混沌”的原因很复杂，目前已经有一些初创企业开始在其中寻找解法。2025年12月成立的智域基石，正是其中十分有特色的一家。

智域基石提出了“数据编译”的全新理念，把在软件工程领域已经成熟的“编译”概念引入具身智能数据处理，搭建了一套包含“质检、底座、编译、检索、交付”五个环节的数据编译管线。

这套管线既不是传统的数据标注，也不同于自动驾驶的数据清洗，它是一个需要同时理解机器人本体、具身模型算法以及大数据工程的数据新基建。

目前，智域基石已完成数千万元天使轮融资，本轮投资方由四家代表性机器人厂商——灵初智能、穹彻智能、浙江人形、智平方（拼音序），以及紫江集团控股的紫竹高新区旗下VC投资管理平台小苗朗程共同构成。

近期，「甲子光年」与智域基石CEO杨哲轩、CTO徐良威、COO张计业进行了一次深度交流，试图理清在具身智能这场漫长的竞赛中，智域基石选择的数据编译赛道，究竟是一门怎样的生意，又将走向何方？

1.具身智能需要“数据编译”

杨哲轩进入具身智能行业的时间不算长。

从左至右依次为智域基石COO张计业、CEO杨哲轩、CTO徐良威，图片来源：智域基石

徐良威有腾讯、小鹏机器人的从业背景，是实战经验丰富的机器人软硬件专家，熟悉具身智能算法对于数据的需求，也有丰富硬件落地的经验。张计业则为前华为地市总经理，曾担任具身智能公司穹彻智能生态负责人。

三个人在行业里观察了将近两年。他们注意到，整个具身智能领域的“投入产出比”并不可观。2023 年，资本大量涌入具身智能赛道，投模型、投本体、投零部件，但真正在产业端落地的成果却乏善可陈——无论工业场景还是家庭场景，并未出现特别亮眼的突破。

在杨哲轩看来，具身智能之所以难以落地，本质上在于它与物理世界的交互方式与大语言模型或自动驾驶完全不同。

“大语言模型的突破背后，有一个容易被忽视的前提，它是有数据的。”杨哲轩向「甲子光年」解释，“GPT-3.5出来之后，国内投了几百亿，很快模型厂商就有所突破。为什么？因为算法是成熟的，算力虽然紧张但不会成为核心矛盾，关键在于数据已经存在了。”

自动驾驶也是类似的逻辑。道路资源由政府提供，作为一种普惠的基建存在，主机厂只需把车改造后上路，汽车行驶过程中自然能够进行数据采集，几乎没有过多额外的数据采集成本。

“但具身智能不同。”杨哲轩说，“它是所谓的‘千行万业’，每进入一个场景都有成本、有门槛，因为你要跟物理世界接触，要采数据、要跟人沟通、要处理各种价值分配关系。”

因此，场景越是碎片化，单一模型公司或本体厂商自建数采体系的边际成本就越高。一家做工业拣选的公司，很难为了训练一个拧螺丝的技能，再去打通一个五金车间的入场权；一家做家庭陪伴的公司，也很难为了一次厨房场景的数据采集，去解决千家万户的隐私授权问题。

物理世界的非标与封闭，决定了大多数玩家很难靠“自给自足”拿到所需场景的高质量数据。正是基于这一判断，三人在一个月内迅速达成共识：在物理世界的劳动与数字世界的模型之间，必须生长出一个独立的中间层，一个专门做具身智能数据的“编译层”。

这一层不参与模型的路线之争，也不介入本体的硬件博弈，只专注于一件事：用工程化的技术手段，把真实场景中碎片化的物理交互数据，转化为模型可消化、可执行的通用养料。

2.“数据编译”难在哪？

或许有人会疑惑，自动驾驶或大语言模型训练也需要大量数据标注工作，所谓“数据编译”是否只是换汤不换药？

对此，徐良威解释道，机器人训练所需的数据和自动驾驶、CV模型或NLP模型所需的数据类型有本质不同。

后者数据类型相对单一，通常使用标准化脚本或者线性管道，就能把原始数据变成模型可用的格式。但具身智能需要的数据的两个特点使得数据处理难度极大提升：第一是数据种类的多模态；第二，任务结构和操作语义的非标准化。

目前，合成数据、遥操数据、真机数据、人类数据（Ego Centric 数据）是常见的四类数据类型。

在杨哲轩看来，数据的价值取决于训练的目标维度。

如果从“直接教机器人动起来”这个角度看，机器人遥操数据仍然是最直接有效的。因为它们有动作监督，跟机器人执行空间更近。

如果从“让模型变聪明、懂任务、懂交互、懂长程逻辑”这个角度看，人类数据（Ego Centric数据）的价值会越来越大。因为机器人未来不可能只靠昂贵真机数据堆出认知能力。

如果从“做规模化扩张”这个角度看，仿真与合成数据不可或缺，但不能脱离真实世界校准。它更适合扩张、补长尾、做压测；但如果没有真机闭环，仿真很容易越做越漂亮、越做越脱离交付。

因此，杨哲轩认为，真正高效的机器人训练数据不会只押一种形态，需要构建一套完整的“数据配方”——用第一人称/互联网数据学语义和技能先验；用遥操作数据学动作映射；用仿真数据扩展覆盖面；用真机数据完成最终校准与闭环。

这个过程中，“关键问题不是比例，而是什么数据在什么阶段最有价值。”徐良威补充道。

事实上，这个关键判断已经成为一种行业层面的共识。今年年初人类数据的爆发，是这项行业新共识的有力印证。

无论是π0.6还是Generalist Intelligence 1（GEN-1），都让行业看到了一个共同结论：模型要具备泛化能力，要提高成功率，必须依靠多层面、多阶段、多级别的数据。

为此，在智域基石的编译管线中，人类（Ego-Centric）数据在管线中的重要性会越来越高。因为Ego-Centric数据正在补足机器人和物理世界交互的空缺。

智域基石正在自研Ego-Centric采集设备，试图从四个维度采集多模态、多维度、全方位的信息，涵盖本体（人/机器人）、工具（手/夹爪/灵巧手）、物体（操作对象）、环境（空间重建）四个方面。

以“拿杯子”的场景为例，一个人用手去拿一个杯子，手和杯子之间产生了接触关系。对应到机器人，就是夹爪或灵巧手去操作杯子。Ego-Centric设备要做的，是同时采集人看到的信息、听到的信息、触摸到的信息，以及环境的空间重建信息。“这样才能产生一套完整的数据对应关系。”徐良威说。

然而，人类数据比传统真机数据更难处理。

“二者本质上没有区别，都是真实数据，即发生在物理世界中、与环境有交互的数据。”徐良威解释，“但Ego-Centric需要更多的算子来支持从中提取结构和语义信息。因为它是通过人的第一视角来观测，通过人使用工具的决策来训练模型，这中间有一个‘翻译’的过程。”

机器人训练对数据的苛刻需求，使得传统数据标注模式已然失效。

数据标注是劳动密集型的工作，壁垒在于人力成本和管理效率；数据编译是技术驱动的工作，壁垒在于整个管线的算法能力和系统工程能力。

智域基石正希望构建整套数据编译管线，把多种类的数据变成大多数模型可以直接使用的格式。就像此前C语言、Go语言、Rust语言，最终全都被编译成Windows、Mac或Linux可以运行的程序。

不过，在智域基石的编译管线中，真机遥操示教数据和人类第一视角数据将共同存在，瞄准不同的模型训练需求。真机遥操示教数据瞄准后训练或者是类似π0.6的异构训练的需求，人类数据则瞄准模型的预训练。正如GEN-1所展现的那样，基于新一代VLA架构的思路，把连续物理交互当成一等公民来建模，可穿戴设备在物理世界的交互作为模型的燃料。

但要做成这件事，并不容易。

因为具身智能的数据处理天然位于“机器人硬件、模型算法、大数据工程”三者交汇处的空白地带。

随着具身智能数据量级正迎来指数级的跃升，“懂算法的不懂工程量产，懂量产的不懂机器人硬件”的结构性错位，不仅推高了行业的试错成本，更成为了制约具身大模型跨越物理鸿沟的最大掣肘。

而智域基石的团队禀赋，决定了他们具备打造具身智能数据“新基建”的先决条件。智平方曾对智域基石给予高度评价。他们认为，智域基石的核心优势，不只是做数据，更在于能把真实场景中的数据采集、加工和终端反馈闭环持续跑通，这对于具身智能产品迭代来说，具备非常现实的协同价值。

目前，智域基石正在搭建了一条完整的数据编译管线，并已获得市场初步认可。

3.具身智能的“数据编译”怎么做？

智域基石搭建的数据编译管线包含五个关键环节，分别为“数据质检-数据底座重构-数据编译-智能检索与组配-标准化打包与弹性交付”。

其中，第一环是数据质检，但它的重要性长期被行业忽视。

原始传感器数据被记录下来后，首先要面临一道全量筛查，例如摄像头是否丢帧、IMU是否漂移、关节数据是否完整。

不同于行业内因成本所迫而普遍采用的抽检模式，智域基石通过云原生分布式架构，将质检拆分为细粒度计算单元，在可控成本内完成对每一帧数据的“来料检测”。

杨哲轩补充道，这种将质检还原为分布式计算问题的思路，使得同等自动化水平下的资源成本仅为传统方案的三分之一甚至更低。

质检通过的数据，会进入具身数据底座。底座环节的核心任务是时空对齐。

时间对齐相对容易理解，需要将不同频率的数据统一时间基准。摄像头可能是15Hz或30Hz，IMU可能是200Hz甚至500Hz，底座需要将这些不同频率的数据在时间维度上对齐，确保每一时刻的数据都能准确对应。

空间对齐则更复杂。机器人与物理世界交互时，需要知道“手在哪里”“眼睛在哪里”“操作对象在哪里”，这些信息都必须通过设备外参来进行坐标系变换，对齐到唯一的物理空间中。“对齐之后，数据就从散乱的、无规则的状态，变成相对有序的、可被后处理的数据了。”徐良威说。

在底座进行时空对齐后，数据就正式进入“编译”环节，这是整套管线的“灵魂”。

徐良威解释道，底座解决的是几何与时间上的对齐，但数据此时仍不具备语义信息。

编译环节的目标，就是从中提取出模型真正可用的特征。以机器人拿起杯子的任务场景为例，智域基石的数据编译能力不只是标注“用左手拿起杯子”的动作标签，更包括杯子在桌面上的位置、周围物体关系、抓取意图乃至从视觉数据中推理出的接触状态。

数据编译的本质，是让原始数据产生出原本无法直接表达的语义与物理交互信息。

编译完成后，数据进入第四个环节——检索。这是影响数据交付效率的关键环节。

从全国甚至全球采集数据，涵盖数千上万种场景和操作对象，组合之后的数据种类是这个数字的无数倍。面对这样的数据海洋，模型公司需要从中精准挑选出特定场景、特定物体、特定技能的数据包，用于模型训练任务。这不仅是具身智能问题，也是一个复杂的大数据工程问题。

智域基石通过自研的查询引擎，用类似SQL的方式，每一份数据都带着丰富的元数据和语义标签，让客户能够从海量数据中高效定位所需素材。

最后一个环节是交付。检索与组配完成后，系统会将提取出的结构化片段自动打包为带版本号（如 v2.4.0）的标准化训练数据集，实现开箱即用。

面对单次交付动辄数百TB的超大规模数据体量，智域基石还构建了一套弹性交付体系：既支持兼容S3等云原生协议的专线直连与授权调用，也能针对极高安全等级的场景，采用高吞吐的物理阵列（硬盘）进行线下流转。

这种双轨并行的资产分发模式，彻底打通了从数据精炼厂到客户算力集群之间的“最后一公里”。

这条管线的核心能力也备受投资人认可。穹彻智能曾评价道，智域基石的价值不只是补充数据供给，更在于“能够把分散的场景需求沉淀为可标准化、可加工、可持续复用的数据资产”。灵初智能同样看重其“将杂乱数据自动化编译成能直接提升任务成功率的高质量训练输入”的能力。

拆解智域基石的数据编译管线后，「甲子光年」发现，数据编译带来的商业想象力，不止在于数据交易的一锤子买卖，其本质是向模型或本体公司提供一种可持续迭代的“数据服务”。其中，涵盖三个极具张力的增长飞轮：

首先是技术重构带来的复利效应。编译管线每成熟一分，处理新数据的边际成本便递减一分，这是一条典型的知识与技术复利曲线。

其次是抢占定义具身智能数据标准的先机。当模型厂商的训练代码开始依赖于特定的数据格式与接口规范，迁移的成本将不仅是金钱，更是时间与工程重构的隐性代价。

最后则是更长期的生态价值。一旦成为具身智能领域事实上的“数据格式定义者”，平台将真正成为连接上游物理世界与下游数字智能的必经阀门，其粘性将随生态繁荣呈指数级跃升。

从这个意义上说，智域基石这套数据编译管线已经具备了“具身智能数据新基建”的初级形态。而真正让它从“形态”走向“实质”的，是能否在真金白银的商业订单中跑通闭环。

至少在这一点上，成立仅四个月的智域基石已经交出了第一份答卷。

4.从工业场景切入，抢占数据入口

目前，智域基石成立仅4个月，但到手订单已达近亿元规模。

其中，天使轮的四家产业股东贡献了首批需求。但杨哲轩强调，公司客户来源不止于此，目前正在推进与更多模型厂商或场景方的合作。杨哲轩坦诚地说，“作为一家数据公司，从一开始就有客户，是非常重要的。”

因为数据本身不是产品，只有在真实的模型训练任务中被验证为“有效输入”之后，它才能真正释放价值。一家没有客户锚点的数据公司，极易陷入“拿着锤子找钉子”的技术盲区，采回来的数据不知为谁所用，也不知是否符合最新的算法需求，最终沦为数据废料。

而智域基石将客户需求前置到公司搭建数据管线的过程中，股东中的四家具身智能企业既是出资方，也是需求定义方。这意味着，智域基石的数据编译管线从设计之初就在真实的模型训练任务中打磨，并非闭门造车。

在落地场景方面，智域基石选择从工业场景切入。

在杨哲轩看来，工业场景的边界清晰、任务结构化、容错空间明确，更适配具身智能当前的技术成熟度曲线。

对于公司的发展路径，智域基石规划了清晰的三个阶段。

第一阶段是2026-2027年，核心任务是抢占数据入口。具体策略是通过为头部客户提供定制化的结构化训练输入，建立市场口碑和信任关系。这个阶段的关键指标是场景覆盖度和数据质量，在真实客户需求中打磨管线，建立标准化的数据处理流程。

第二阶段是2027-2029年，目标是标准化资产订阅。当编译管线足够成熟之后，数据的组织方式、元数据格式、索引结构都可以标准化。客户不再需要定制化开发，而是可以选择订阅特定类型的标准化数据资产。

这个阶段也是整个商业路径中最难的一步。因为它要求数据处理能力足够成熟，能够在算法路线快速变化的具身智能行业中保持稳定输出。

第三阶段是2029年之后，目标是开放API和开发者生态。届时，智域基石的数据编译能力可能以API的形式对外输出，第三方开发者可以在平台上构建自己的数据处理工具和应用。

这条清晰的路线图，是智域基石对自身未来的规划。但通往终点的赛道，从来不会只有一位参赛者。

「甲子光年」梳理发现，当前具身智能数据赛道上至少已挤入四类玩家：

本体公司自建数采团队（如智元、宇树），优势是离场景近，劣势是缺乏规模效应与跨本体通用性；互联网大厂入局（如京东），挑战在于大厂的组织架构能否适应数据精细化运营的“脏活累活”；传统数据标注公司转型，有人力管理经验但缺乏机器人领域的垂直认知；以及与智域基石正面交锋的同类数据创业公司。

对于越发拥挤的赛道，杨哲轩的态度出奇平静。他希望行业不要过早关注竞争。“我们更关注怎么帮助具身智能进入工业场景，怎么让增量资金进入行业。竞争是之后的事情。”他说。

在决定投资智域基石之前，小苗朗程内部对具身智能数据赛道有过一次全面评估。小苗朗程发现，当前国内约有一百家具身智能企业、大厂和产业方在自研硬件、尝试采集数据，整个产业在重复造轮子，效率低下。本质是缺乏第三方能提供跨本体、跨各类模型需求的高质量数据，智域基石是业内少有的既具备技术能力、商业前瞻性、又有清晰阶段性落地思考的团队。

而浙江人形认为：“智域基石最突出的价值，在于其复合型团队能够真正深入工业现场，打通数据入口、加工处理到终端场景验证的完整链路。这种面向工业落地的系统能力，能够与浙江人形形成高效协同，共同推动人形机器人在真实场景中的训练与落地。”

谈及公司的核心壁垒，杨哲轩短暂思索后，给出了两个答案：

“一是品味。我们全员都配备顶级AI Coding Agent的研发人员，连行政都要求有AI Native的工作习惯。我们积极拥抱领先的工具，并把它转化为日常工作的一部分。二是团队，一个尊重事实、敢于自我批判和迭代的团队。我们不强求一开始就正确，但要求能够快速发现问题、修正方向。”

事实上，这也是「甲子光年」在这家成立仅数月的公司身上所看到的，一种在当下具身领域十分稀缺的冷静与务实。

他们描绘了一幅关于具身智能数据基础设施的宏大愿景，站在具身数据这个全社会高度关注的风口上，但具体到落地上，他们没有夸张的融资PPT，也没有激动人心的愿景宣言，创始团队似乎并不喜讲述太多关于“未来”的故事，更希望聚焦当下的每一步——打磨技术、一步一个脚印地拿下订单。

“讲故事讲到最后，如果没有真正创造价值，行业也就没了。”杨哲轩说。这或许正是智域基石的生存哲学：在风口上保持清醒，在噪声中坚持做难而正确的事。

（封面图来源：AI生成）

30257
320
101
0

0/140 提交