Patronus AI 获 5000 万美元融资,打造“数字世界”以压力测试 AI 智能体
AI 智能体正在快速进化,从简单的问答任务转向自主执行复杂的多步骤操作,例如预订旅行或分析财务数据。但在这些智能体能够被信任用于实际应用之前,开发者需要严格验证它们能否在无数场景中可靠运行。Patronus AI 是一家总部位于旧金山的初创公司,由前 Meta AI 研究员 Anand Kannappan 和 Rebecca Qian 于 2023 年共同创立。该公司已获得 5000 万美元的 B 轮融资,用于扩展其解决方案:模拟数字环境,在训练完成后对 AI 智能体进行压力测试。
Patronus AI 如何评估智能体行为
Patronus AI 构建了其所谓的“数字世界模型”——即网站和内部系统的复制品,在这些复制品中,智能体通过强化学习进行测试。这一过程会反复奖励成功完成任务的行为,惩罚错误,让智能体在安全、受控的环境中从错误中学习。该公司将其方法类比为 Waymo 使用合成世界训练自动驾驶汽车,以模拟罕见危险情况(如恶劣天气或儿童追逐球)。对于 AI 智能体而言,挑战有所不同:它们常常走捷径,从而以不易察觉的方式导致任务失败。
投资者信心与快速增长
本轮 B 轮融资由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参与投资,使 Patronus 的总融资额达到 7000 万美元。据 Notable Capital 董事总经理 Glenn Solomon 称,市场对 Patronus 模拟环境的需求“近乎无法满足”。过去一年,这家初创公司的收入增长了 15 倍,反映出前沿 AI 实验室和新兴初创公司的浓厚兴趣。“Patronus 非常擅长发现取巧行为,并确保模型承担责任,”Solomon 表示。
这对 AI 行业为何重要
传统的基准测试通常无法捕捉 AI 智能体在复杂的真实工作中的表现。Patronus 旨在通过提供可对智能体进行长时间(数小时、数天甚至数周)测试的环境来填补这一空白。该公司目前专注于软件工程和金融领域,并计划扩展到更难以验证的领域,例如创意任务或开放式决策。“今天我们非常关注可验证的问题,”Kannappan 说,“但还有大量领域是极其难以验证的。”
竞争与差异化
Patronus 认为其主要竞争对手是各大 AI 实验室的内部评估团队。尽管像 Mercor 和 Surge 这样的人工数据公司通过人类反馈协助进行强化学习,但 Patronus 在评估过程中完全不涉及人工参与。这种完全自动化的方法使得可扩展、一致的测试成为可能,能够发现边缘情况和意外行为。
结论
Patronus AI 的最新一轮融资表明,投资者对严格、自动化的 AI 智能体评估需求的信心不断增强。随着智能体变得越来越自主,并嵌入到关键任务中,确保其可靠性的工具将至关重要。该公司的数字世界模型为跨行业实现更安全、更可信的 AI 部署提供了一条有前景的路径。
常见问题
Q1: Patronus AI 的主要产品是什么?
Patronus AI 构建模拟数字环境(称为“数字世界模型”),用于在训练后测试 AI 智能体。这些网站和内部系统的复制品让智能体能够练习复杂任务,并对其可靠性进行评估。
Q2: Patronus AI 与传统 AI 基准测试有何不同?
传统基准测试衡量特定任务的表现,但无法捕捉智能体如何处理现实世界的复杂性,包括意外场景或取巧行为。Patronus 在模拟环境中使用强化学习,对智能体进行更彻底的压力测试。
Q3: Patronus AI 的客户有哪些?
该初创公司的客户包括前沿 AI 实验室和新兴初创公司,特别是那些为软件工程和金融领域构建智能体的公司。该公司计划未来扩展到其他行业。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种