行家说第三代半
SiC/GaN产业智库
关注公众号
机器人的“饥饿游戏”:1000亿小时的数据缺口,怎么填?
行家说机器人
人形机器人资本狂欢和技术迭代的背后,一个极其残酷的真相正浮出水面——不是算法不够先进,不是芯片不够强大,而是 “数据饥渴” 。
如果说大语言模型是“衔着金汤匙”出生的海王,它能轻松从互联网捞起万亿规模的语料。那么如今的人形机器人,简直就是这片“数据荒漠”上的拓荒者,它的训练数据不仅采集艰难,价格还高得离谱。
据统计,当前全球高质量真实物理交互数据总量仅约50万小时,而要实现具身 AI 模型能力的突破,需要1000亿小时的数据,缺口超过99.999%!
机器人的“饥饿游戏”:1000亿小时的数据缺口,怎么填?
那么,这个卡住全行业的“数据采集”,到底是什么?它为什么这么难做?谁在跑马圈地?它对整个具身智能赛道意味着什么?下面我们逐一拆解。
数据采集为何如此大费周章?
如果你感觉让机器人在虚拟世界里“打怪升级”就能天下无敌,那你可能低估了物理世界的复杂性。所谓具身智能的数据采集,不仅仅是拍个照片、录个视频那么简单,而是要在物理空间中和具体物体发生具体交互。
机器人在物理世界中互动产生的多维度信号,包括视觉、力觉、关节位置、电机控制量等,全部要精确同步,时间戳对齐,才能构成一条有用的训练轨迹。而这些信息从来没有被系统性地记录过。其难点就在于,这些数据天然不存在于互联网上,人类需要以某种方式去从零开始采集。
机器人训练数据采集,首先都需要搭建场景,再布设一批机器人,然后引入大量摇操人员来控制机器人采集数据。这里有个很大的难点——摇操人员与机器人的感受并不相通,于是摇操的难度非常大。
数据采集的工程量有多大?我们以谷歌的一组数据来说明。
谷歌DeepMind在研发机器人模型 RT系列第一代的时候调动了13台机器人,在办公室、厨房等环境中持续采集了整整17个月,才累积了大约13万条的操作轨迹,覆盖700多项技能。为了训练RT2,谷歌联合了全球34所研究机构,把60个已有数据集全部合并,加上来自22种机器人平台的真机数据,才凑出了Open X-Embodiment——一个包含超过100万条操作轨迹的开源数据集。这已经是被认为是目前全球最大的跨机构真机数据集了。即便如此,它涵盖的技能和对应的场景对于现实世界的需求而言还只是冰山一角。
目前主流的数据采集方式
数据采集难度如此之大,但这块硬骨头人类是啃定了。如今,行业摸索出了四条并行的路径,按数据的质量由低到高排列构成一个金字塔结构:真机数据在最顶端,仿真数据在中层,互联网视频数据在底层。
机器人的“饥饿游戏”:1000亿小时的数据缺口,怎么填?
真机数据: 也叫摇操数据,这是目前绝对的“黄金标准”,也是行业内最主流、最依赖的方式。让摇操员通过外骨骼或者摇操系统实时操控机器人在真实场景里完成操作。每一个关节细节、每一个动作轨迹都被实时记录,精准度无与伦比。比如,智元机器人早在2024年就在上海张江搭建了约4000平方米的数据采集基地,每天100多台机器人同步训练,覆盖家居、办公、工业、餐饮、商超五大场景,日均可产出3万至5万条数据。
机器人的“饥饿游戏”:1000亿小时的数据缺口,怎么填?
仿真合成数据:这是规模效应最极致的路线。该路线主打“神笔马良”式想象力,成本低、规模大。通过高精度虚拟世界生成大量“想象”出来的交互场景。比如,英伟达的MimicGen能从5次人类演示中,自动生成1000个灵巧任务演示。但这条路线有一个bug,即“仿真与现实的鸿沟”(Sim-to-Real Gap),机器人在虚拟世界里表现得再好,到了真实世界中照样有可能“翻车”。
动作捕捉: 这是一种将人类动作“直接翻译”成机器人指令的“共享大脑”模式。通过专业动捕设备记录人类操作,再“翻译”给机器人。斯坦福团队的DexCap就是其中标杆,其核心优势是让数据与特定机器人本体“解耦”,从此不必“换一个机器人型号,就费掉一批数据”。但劣势也很明显,机器人只是在复制人类的动作,它无法理解这个动作是在干什么。
互联网视频数据:互联网诞生以来,汇集了海量人类完成各种任务的视频,这是今天具身智能训练里面唯一不缺的原材料。视频数据更多是让机器人的模型大脑学习通用的表征,以及一些物理规律的粗浅认知,但也仅仅是停留在认识的阶段,从“知道”到“会做”还隔着一道鸿沟。所以,互联网视频数据被认为是最低质量的数据。
当前具身智能数据采集的三大难点
当前,具身智能数据采集主要面临三大核心挑战:
数据稀缺陷阱。 作为行业公认的难题,机器人不能像大语言模型那样,轻松在互联网上“搬运”现成素材。它拿、放、走、抓、避障、操作等三维动作数据,都必须在物理世界一秒一秒地交互生成,这导致高质量数据极度稀缺。
多模态高维数据采集之痛。 一台优秀的机器人必须配备视觉、触觉、关节状态、力反馈等多路传感器。在这种“全副武装”下,哪怕只是叠一个衣服,操作员都得顶着高强度的视觉反馈、施加微妙的力控,以记录每一次“抓握”动作中灵巧手指尖的压力变化,数据维度和精细化程度远超传统二维感知。
数据异构与“孤岛效应”。 由于机器人本体结构五花八门,传感器配置千差万别,不同公司的数据采集就像是用不同语言写的童话故事:A公司训练的机器人,换了B公司的外壳,几乎就成了“文盲”。数据之间很难直接复用,这不仅造成了巨大的重复建设成本,也严重阻碍了通用智能的发展。
数据采集赛道的“三驾马车”
为了破解“数据荒”,目前整个赛道形成了三类主要玩家:
1. 政府牵头的“国家队”
各地政府和公共机构正积极扮演着“超级金主”的角色。根据公开数据,截至2026年4月底,全国已有至少64个已投入使用的人形机器人数据采集和训练中心。典型案例包括:
北京石景山人形机器人数据训练中心:由区政府牵头,乐聚机器人联合运营,占地超1万平方米,年产真机数据量超600万条,设有100个数采工位。
广西防城港中心:由防城港市政府与优必选共建,是地方“拥抱具身智能”的典型代表。
2. 本体企业主导的“自研派”
头部机器人厂商普遍选择自建数采体系,因为“没有人比自己更清楚需要什么样的数据”。这一路线代表有:
智元机器人:部署万台量产机器人,日均采集3万至5万条数据。
帕西尼感知:在天津建设的12000㎡超级数据工厂,拥有150个采集单元,每天最多可产55万条操作数据。
乐聚机器人:夸父系列机器人成为多个数采中心的“主力干将”。
3. 专业数据服务的“卖铲人”
这条赛道上,一批专注具身数据服务的公司正在快速崛起。它们不造机器人,而是像AI产业链里的“卖铲人”,赚取训练数据的钱:
光轮智能:专注仿真合成数据,超过80%的具身智能团队都是其客户,短短两个月内估值从10亿美元飙升至超20亿美元。
海天瑞声:传统数据标注巨头,已组建具身智能数据专项团队,并开始在全国多城市选址布局。
觅蜂科技:由智元机器人控股的具身智能数据平台公司,专注B端通用型数据服务。
简智机器人:成立仅一年就完成多轮数亿元融资,蚂蚁集团、滴滴、德联资本等纷纷入局。
数据采集的意义与未来
2025年全球具身智能数据市场已达约2.42亿美元,同比增长181.4%,预计到2030年将飙升至52.5亿美元。这不再只是实验室的自嗨,而是整个AI产业上下游最拥挤的一条“卖铲子”赛道。谁能拥有更精准、更海量的高质量交互数据,谁就掌握了机器人大模型的“生命线”。
数据统一化与模块化分工是必然趋势。正如今天自动驾驶通过统一数据格式加速了行业进步,具身智能也必将催生一套 “世界语” 的标准——让所有机器人厂商都能自由调用数据,而不是闭门造车。届时,数据采集公司将可能像今天的云服务商一样,分化为负责“造水管”的基础设施层,和提供特定场景个性化任务的“应用层”,从而彻底改变人形机器人行业的发展模式。
围绕数据采集做文章,必须扎进真实场景:或许是在家庭服务场景里做“保姆式数据采集”,或许是在汽车制造工厂的高危精密工序中充当“打螺丝”的绝对主力。最终,谁能最先把数采中心积累的“海量案例库”,切实转化为可商业化的规模化机器人生产力,谁就能在这场“饥饿游戏”里提前吃到“蓝海红利”。
当我们回看这段历史的起点,那些戴着VR眼镜、在一平米的空间里默默为机器人“标注动作”的数据采集员们,像极了为史前寒武纪生物大爆发筹备“弹药”的地质勘探员。他们正在构建起的,不仅是训练大模型的“数据基石”,更是一座通向AGI的“桥梁”。或许,为机器人注入“灵魂”的那一天,会比我们所有人的想象,都来得更快。
END
机器人的“饥饿游戏”:1000亿小时的数据缺口,怎么填?
📚 往期精彩
2026人形机器人定调:告别炫技,真场景决胜负
6天预售2110台,情感陪伴机器人卖给了谁?
击败英伟达,3个月内融资50亿,这家中国企业如何做到?
触觉,才是人形机器人的“灵魂”
优必选【优世界】开启预售!盘点全尺寸超仿生机器人群雄
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
行家说机器人 向上滑动看下一个
行家说机器人 写留言 ,选择留言身份
最新活动
往届回顾