训练机器人的脏活累活:XDOF获7000万美元融资,构建AI实验室急需的数据管道
两周前,OpenAI宣布将重启2021年关闭的机器人项目——这是最新信号,表明各大AI实验室正竞相教会机器在物理世界中操作。但打造能干的机器人需要一样东西,而AI行业尚未大规模拥有:与支撑语言模型相媲美的训练数据。这一缺口催生了一种新型基础设施业务。
与在大量公开文本上训练的大型语言模型不同,机器人需要捕捉物理交互的数据——而这种数据几乎不存在。YouTube视频和零工工人拍摄的素材保真度低,且难以与物理世界吻合。于是XDOF(发音为“ecks-doff”)登场了,这家初创公司今日结束隐身模式,押注AI的下一个重大瓶颈不是模型或芯片,而是教会机器人与物理世界交互所需的数据反馈循环。
构建物理AI的数据生态系统
XDOF旨在构建前沿实验室和机器人公司自身难以轻易搭建的数据管道、采集工具和标注系统。该公司已从Thrive Capital、Spark Capital、a16z、Lux和WndrCo筹集了7000万美元。联合创始人兼首席执行官Philippe Wu表示,拥有约60名员工的XDOF已与20家客户合作,其中包括几家前沿AI实验室,但他不能透露具体名称。
“所有顶级实验室都在尝试进军机器人领域,”Wu在接受采访时说。“我们已经看到在语言模型竞赛中稍显落后的后果……你不希望陷入这种局面——太晚追逐这项技术——而每个人都在同一条船上,认为物理AI是下一个前沿。”
Wu本人在加州大学伯克利分校攻读博士时也遇到了这个问题,他的研究重点是利用大规模数据集让机器人学习技能。但有一个问题。“我们没有大规模数据可用,”他说。“这是一个先有鸡还是先有蛋的问题——我们首先需要实际收集数据,然后才能考虑如何训练机器人的基础模型。”
Wu和他未来的XDOF联合创始人兼首席技术官Fred Shentu曾合作一个名为GELLO的项目,这是一种低成本遥操作系统,让人类操作员控制机器人手臂以生成训练数据。“这最终成为机器人领域一篇非常有影响力的论文,因为很多人都有类似的需求和瓶颈,许多人开始利用这种设备进行数据收集,”Wu说。
看到机会后,Wu、Shentu和第三位联合创始人兼首席运营官Nemo Jin于2024年10月推出了XDOF,为追求机器人模型的公司提供数据生态系统。考虑到单纯提供数据可能是一条死胡同业务,该公司还专注于数据清洗、工具和标注——为机器人训练者创建一个自我强化的反馈循环。
ABC数据集:机器人研究的新基准
作为起点,该公司与加州大学伯克利分校的AI研究实验室合作,发布了他们认为有史以来最大规模的高质量机器人训练数据集,名为ABC。该数据集包含13万条机器人操作轨迹数据、300小时的模拟和100小时的评估。这种规模的预训练数据以前从未提供给学术界。
“我们在语言、图像生成等领域看到,当模型和数据发布时,社区会取得你未必预料到的成就,”伯克利博士生David McAllister(帮助组织了此次发布)说。团队已经利用该数据在基准任务上训练机器人,例如折叠T恤、压平纸箱以及将AirPods装入充电盒。
三个层级的数据收集
该公司计划在数据金字塔的三个层级开展工作。最有价值的层级是部署中的实际机器人上收集的遥操作数据;其次是使用遥操作机器人收集更通用数据(像GELLO那样);最后是人类执行日常任务时收集的“自我中心”数据,XDOF计划为此构建自己的可穿戴传感器。
“你的相机选择会影响数据质量——进而影响手部追踪算法的表现,”Wu说。“如果你没有从一开始就设计好硬件,你收集的数据可能会带有你未曾预料到的特定问题。”
该公司计划在全球招聘和培训大批遥操作员和自我中心数据操作员——这种劳动密集型模式引出一个显而易见的问题:为什么各大实验室不自己进行这些数据生产工作?
“你需要一个数十万平方英尺的仓库,里面放置数百台机器人,”Wu说。“你需要维护这些机器人,校准它们的物理参数,并正确培训操作员。”这种建设需要专注、资金和运营规模,而大多数AI实验室宁愿外包——这正是XDOF押注的市场。
这对AI行业为何重要
XDOF的出现标志着AI领域更广泛的转变。随着前沿实验室竞相走向物理AI——能在非结构化人类环境中运行的机器人——数据瓶颈正变得与算力或模型架构同等关键。能够提供可靠、高质量物理交互训练数据的公司,正将自己定位为关键基础设施提供商。
XDOF的名称源于机器人学术语“自由度”,描述机器人可以执行的独立运动数量。从肩膀到手腕,人类手臂有七个自由度。人形机器人公司Figure.AI的最新机器人有30个自由度。公司名称中的X体现了其雄心:“任意自由度,无限自由度,”Wu说。
结论
XDOF的7000万美元融资和走出隐身模式的公告,凸显了AI行业日益增长的共识:通往强大物理AI的道路是通过数据基础设施,而不仅仅是更好的模型。随着更多实验室效仿OpenAI重启机器人项目,对高质量、基于物理的训练数据的需求只会加剧。XDOF正将自己置于这一需求的中心,构建那些可能决定哪些公司能在制造真正能在现实世界工作的机器人竞赛中胜出的数据管道。
常见问题解答
Q1: XDOF是什么?它做什么?
XDOF是一家为训练机器人构建数据管道、采集工具和标注系统的初创公司。它提供AI实验室所需的物理世界训练数据,用于教会机器人与环境交互。
Q2: 为什么机器人训练数据与语言模型训练数据不同?
语言模型可以在互联网上大量文本上进行训练。机器人训练数据必须捕捉物理交互——比如抓取物体或折叠衣物——这需要专门的采集方法,如遥操作或可穿戴传感器。
Q3: XDOF筹集了多少资金?投资者是谁?
XDOF已从Thrive Capital、Spark Capital、a16z、Lux和WndrCo筹集了7000万美元。该公司约有60名员工,已与包括几家前沿AI实验室在内的20家客户合作。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种