英伟达CEO黄仁勋上周在播客中直言“我认为我们已经实现了通用人工智能”。两天后,人工智能研究领域最严苛的测试发布了最新基准——所有前沿模型的得分均低于1%。
ARC Prize基金会本周发布了ARC-AGI-3基准测试,结果堪称残酷。谷歌的Gemini 3.1 Pro以0.37%的得分位列第一,OpenAI的GPT-5.4得分0.26%,Anthropic的Claude Opus 4.6获得0.25%,而xAI的Grok-4.20得分恰好为零。与此同时,人类被试者在所有测试环境中均实现了100%的完成率。
这并非知识问答或编程考试,甚至不是超高难度的博士级考题。ARC-AGI-3是一种与人工智能行业以往面临的任何测试都完全不同的评估体系。
该基准由弗朗索瓦·肖莱与迈克·努普设立的基金会构建。他们专门组建内部游戏工作室,从头创建了135个原创交互式环境。其核心设计理念是将智能体置于一个完全陌生、类似游戏的世界中,不提供任何操作说明、既定目标或规则描述。智能体必须自主探索、理解任务目标、制定计划并执行操作。
倘若这听起来像是任何五岁孩童都能完成的任务,你已开始触及问题的本质。该测试中的部分游戏可供体验,我们尝试了一款:初感怪异,但数秒后便能轻松掌握要领。
这也最清晰地诠释了“通用人工智能”中“通用”二字的含义。所谓通用化能力,即无需预先训练就能创造新知识(例如理解陌生游戏的运行机制)。
早期版本的ARC测试聚焦静态视觉谜题——展示规律模式,预测后续变化。这类测试起初颇具挑战,但随着实验室投入海量算力进行针对性训练,基准很快被攻克。2019年推出的ARC-AGI-1最终被测试时训练与推理模型突破;ARC-AGI-2维持约一年后,Gemini 3.1 Pro即取得77.1%的得分。研究机构极擅长通过训练饱和其可预见的基准。
第三代基准正是为杜绝此现象而设计。在135个测试环境中,110个保持非公开状态——其中55个半公开用于API测试,55个完全保密用于竞赛——这消除了通过记忆数据集破解测试的可能。面对从未见过的新游戏逻辑,暴力破解手段全然失效。
评分机制亦非简单通过与否。ARC-AGI-3采用基金会称为“相对人类行动效率”的评估体系:以人类第二优首次尝试表现为基准。若智能体完成某关卡所需操作步骤达到人类的十倍,其得分仅为1%而非10%。该公式对低效行为实施平方级惩罚,盲目探索、路径回溯与猜测式解题将遭受严厉扣分。
在为期一个月的开发者预览中,最佳人工智能体得分仅为12.58%。通过官方API测试的前沿大语言模型(未使用定制工具)均未突破1%。未经训练的普通人类在无指引情况下却能完全通过全部135个环境。若以此为标准,现有模型群体显然未能达标。
当前存在一项方法论争议:ARC报告显示,杜克大学开发的定制工具曾使Claude Opus 4.6在名为TR87的特定环境变体中从0.25%跃升至97.1%。这并不意味着该模型整体得分达到97.1%(其官方基准得分仍为0.25%),但变化幅度值得关注。
官方基准测试向智能体输送的是JSON代码而非视觉信息。这可能是方法论缺陷,也可能印证了当前模型更擅长处理人类友好型信息而非原始结构化数据。肖莱基金会已承认该争议,但暂不调整测试格式。
论文明确指出:“内容感知框架与API格式并非限制前沿模型在ARC-AGI-3表现的核心因素。”换言之,研究者不认同模型因“无法正确观察”任务而失败的观点,认为现有感知能力已足够,真正的差距在于推理与泛化能力。
这场通用人工智能的现实检验出现在行业狂热达到顶峰的一周。除黄仁勋的宣言外,Arm将其新一代数据中心芯片命名为“AGI处理器”;OpenAI首席执行官山姆·阿尔特曼宣称已“基本建成通用人工智能”;微软甚至开始推广专注于建设“超级人工智能”的实验室——这被定义为通用人工智能实现后的进阶形态。该术语似乎正被无限延伸,直至符合商业需求的任何定义。
肖莱的立场更为简明:如果未经指导的普通人可以完成,而你的系统不能,那么你拥有的就不是通用人工智能——只是一个需要大量协助的昂贵自动补全工具。
ARC Prize 2026竞赛已在Kaggle平台启动三条赛道,总奖金达200万美元。所有获胜方案必须开源。倒计时已经开始,而当前的人工智能距离终点尚且遥远。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种