启动大规模数据采集 京东欲破解具身智能“大脑”瓶颈

来源 | 《财经》新媒体 作者 | 撰稿人 王婧雅 编辑 | 高素英  

2026年04月17日 21:55  

本文2702字,约4分钟

能歌善舞、会翻跟头、能骑车……如今的机器人在硬件与动作控制上已愈发成熟,但在业内看来,它们大多只是“小脑发达、大脑空白”,更像一个被遥控的木偶,自主决策能力严重缺失。

4月16日,京东集团技术委员会主席曹鹏在京东具身智能生态发布会上直言,具身智能行业当前最大瓶颈不在机械本体,而在数据与模型。训练一个具备强泛化能力的具身大模型,至少需要1000万小时量级的真实操作数据。而目前市面上能拿到的相关数据集,加起来不过几十万小时,且场景单一、高度依赖特定机器人硬件,换个设备就基本没法用。

面对行业瓶颈,京东提出了两年发动60万人采集1000万小时数据的目标,并开放平台促进数据的采集和流通。在业内看来,数据质量的提升,可以推动模型进化,模型成熟后反过来又能降低数据采集成本。不过,目前,具身智能行业仍处于初级发展阶段,距离大规模场景落地仍需时间。

具身智能发展“数据”缺失

京东将行业数据现状形容为一个“残缺的金字塔”。在曹鹏看来,这个金字塔分为三层结构,底层是海量的互联网视频数据。这类数据的优点是“量大管饱”,可以用于大模型的预训练。但它们没有本体信息,没有标注,没有具体的场景指向性,非常随机。机器人看了可以理解“这是什么物体”,但无法知道“怎么抓、用多大力、以什么角度操作”。

中间层面向真实场景、带语义标注、动作对齐、可泛化的数据,但目前几乎是一片空白。曹鹏指出,正是这个中间层的缺失,导致整个数据金字塔断裂。底层数据量大但不可直接用,顶层数据精准但无法规模化、无法泛化。模型训练缺少了最关键的那一桶“燃料”。

顶层则是针对特定机器人的遥操数据。由工程师站在机器人旁边,用手柄操控机器人完成抓、拿、取、放等动作,逐条采集。这类数据精准、与硬件匹配度高。这种方式有两个严重问题。

在京东技术团队负责人龚义成看来,一方面是效率极低、成本极高。一家头部公司积攒两三年,往往只有两三万条数据条目,而训练一个像样的模型需要上千万小时的数据,差距是三个数量级。另一方面,场景严重受限。遥操只能在实验室或经过改造的环境中完成,很多真实场景,比如仓库狭窄货架间的分拣、家庭厨房的精细操作、户外复杂地形的导航,根本进不去。机器人出了实验室就“水土不服”,泛化能力差,根本原因就在这里。

更棘手的是,这些遥操数据通常与特定机器人本体强绑定。曹鹏表示,A机器人公司采集的数据只能A机器人公司用,B机器人公司必须自己重新做,造成了极大的浪费。数据无法跨本体迁移,意味着整个行业的数据积累效率被大幅拉低,每家都在重复造轮子。

让机器人模仿人 启动大规模数据采集

面对上述困境,京东选择了一条不同的技术路线,不再让机器人模仿机器人,而是让机器人模仿人。

核心是把数据采集视角从机器人头顶转移到人类第一视角。对此,京东构建了一个新的数据金字塔,最底层是千万小时级的“无本体人类第一视角视频”,作为模型的预训练基座;中间层是百万小时级带场景语义和动作对齐的数据;顶层才是与具体硬件绑定的遥操数据。

这套架构的逻辑是,先让模型看懂人是怎么干活的,再适配到不同机器人身上。京东集团具身智能首席专家林倞将这一目标概括为“一脑多形”,一个模型兼容不同的末端执行器。

为了支撑这一转变,京东推出了仅重220克的可穿戴设备JoyEgoCam,京东物流、家政、医药等3600多个仓库、过万线下门店、20多万药房及5万家政人员戴上后,在正常作业过程中就能完成专业级数据采集。

与此同时,京东还将进行大规模数据采集行动,两年内将采集1000万小时基于真实场景的无本体视频数据,再加100万小时机器人本体数据。

不过,硬件只是入口。真正的门槛在数据处理环节。原始视频要变成模型可用的结构化数据,需要经过子任务分割、语义标注、几何校正、手势定位、深度重建等一系列工序。

林倞表示,具身智能的数据构建本身就是研究课题,“数据金字塔怎么构成、数据质量怎么把握、怎么在数据层面连通人的数据和机器人本体的数据,这些问题的技术难度不亚于模型开发本身。”

京东团队在这上面吃过亏。龚义成回忆称,第一批一千小时数据质量过硬,模型任务准确率能做到90%;但为了冲量,第二批数据质控松懈,喂进去后模型准确率不但没提升,反而下降了。数据质量如果不好,价值就会大打折扣,甚至对模型有反作用。

为了解决这一问题,京东自建了覆盖采、存、标、训、评、仿、测的全链路基础设施。目前具身大模型JoyAI-RA,真机任务成功率已达73.5%。

对于未来发展,京东技术团队的李一航判断,具身智能远未到Scaling Law失效的阶段,“随着数据量级的扩充,具身模型泛化能力还在指数级别的提升,当前首要任务是往前做,而非过早定论。”

押注具身智能超级供应链

比技术更值得关注的是京东的商业模式意图。京东同步上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集,并支持数据方、开发者、应用方多方协同。

曹鹏表示,这个平台一方面会把京东采集的数据开放给行业,另一方面也希望合作伙伴把各自的数据聚合上来,真正为整个行业提供助力。

龚义成反复强调,京东的目标不是成为单纯的数据供应商,而是打造“具身智能超级供应链”。希望看到机器人行业能够加速成熟,能够落地到各个场景里,真正意义上把整个供应链的效果提升到非常高的高度。

这背后,一方面向行业开放数据与算力基础设施,帮助更多机器人公司解决“大脑”训练问题;另一方面推进京东自有场景,如仓库、门店、药房等的智能化改造,同时抢占机器人销售与售后服务生态。

据悉,目前,京东JoyInside附身智能已与近200个家电家居、机器人、玩具等品牌深度合作;京东零售2026年将助推机器人品牌伙伴累计销售破100亿元;京东物流持续构建机器人售后维修服务生态,专业工程师规模将拓展至超万人;京东工业打造一站式工业供应链技术与服务,将实现机器人制造物料100%覆盖。

对于外界普遍担忧的“技术替代人”问题,龚义成的态度是乐观的。他认为,技术发展不是为了替代人,而是创造新岗位。“技术不断发展的过程中,有一些传统岗位在变化,但又会创造出很多新的岗位。”从数据采集到机器人维保,新的就业链条正在形成。

216.73.217.31