生成式AI的爆发得益于海量数据——从互联网上抓取的数万亿词汇,让大语言模型(LLM)学会了写作、编程和对话。但随着科技行业的焦点转向实体AI——即在现实世界中导航和交互的机器人——行业正遭遇巨大的数据瓶颈。如果实体AI想要媲美LLM的成就,这个数据问题就亟待解决。 与基于文本的AI不同,机器人无法简单地从网上抓取训练素材。它们需要从现实世界收集的物理、空间和感官数据。这意味着人类必须亲自上手完成
生成式AI的爆发得益于海量数据——从互联网上抓取的数万亿词汇,让大语言模型(LLM)学会了写作、编程和对话。但随着科技行业的焦点转向实体AI——即在现实世界中导航和交互的机器人——行业正遭遇巨大的数据瓶颈。如果实体AI想要媲美LLM的成就,这个数据问题就亟待解决。
与基于文本的AI不同,机器人无法简单地从网上抓取训练素材。它们需要从现实世界收集的物理、空间和感官数据。这意味着人类必须亲自上手完成任务——开门、拿起易碎物品、叠衣服,或在杂乱的房间里穿梭——同时还要穿戴动作捕捉手套或操作远程临场设备。这是一项既脏又枯燥、毫无光鲜可言的工作。然而,这却是教机械臂和人形机器人躯干如何流畅精准地运动的基础燃料。
意识到所需数据的规模庞大后,一些顶尖AI实验室现在开始将这种苦差事外包出去。根据TechCrunch最近的一篇报道,XDOF已成为这个冷门领域的关键玩家,一些大型AI实验室已经开始付费请该公司承担物理数据收集的重活。借助XDOF这样的专业公司,AI开发者就能把精力集中在算法突破上,而不用去操心统筹成千上万小时人体动作捕捉那种费时费力的后勤工作。
XDOF这类公司的崛起,标志着实体AI的生态系统正在走向成熟。就像LLM淘金热时期数据标注公司变得不可或缺一样,物理数据收集初创企业正成为机器人革命中至关重要的“卖水人”(提供基础工具的角色)。这类工作包括搭建复杂的模拟环境、招募工人反复进行物理操作,以及对采集到的传感器数据进行清洗,以便输入神经网络。
随着打造通用机器人竞赛的加速,对高质量真实世界物理数据的需求只会越来越强烈。人工智能的下一个飞跃,可能并非源于某种新算法,而是源于人类枯燥的体力劳动——他们的动作被一丝不苟地记录下来,用来教机器如何行动。在实体AI时代,数据依然是王道——但收集数据需要亲自动手干脏活。