为何AI代理需要更长时间的测试
简短、孤立的测试无法捕捉AI代理在时间推移中的行为表现。一项新的模拟实验显示,长期行为取决于环境以及其他代理的表现。
如果你建造一座虚拟城市,在里面填满AI代理,然后让它们在没有人类干预的情况下独自运行15天,会发生什么?它们会让世界繁荣,还是将其撕裂?这正是"涌现世界"的研究人员试图解答的问题。他们搭建了一个专门的平台,用于测试AI代理在长期内的行为,而不是通过短期测试来评判它们。
研究人员指出,基于大语言模型的代理通常像参加考试一样被测试——在干净的环境中完成一个孤立任务,研究人员在几分钟内评判结果。他们认为,这种方法与真实世界的应用相去甚远。
他们强调,自主系统会在共享环境中运行数周甚至数月,还会与操作者无法控制其行为的其他代理进行互动。研究人员写道,随着时间的推移,短期测试的局限性变得显而易见:微小的行为变化会累积,联盟可能形成,自我治理模式可能成型,习惯可能在代理之间传播。"涌现世界"正是为测量这些现象而搭建的。
实验如何测试AI社会
研究的目的是观察由10个AI代理组成的群体如何在一个为它们建造的城市中生存。城市布局相当简单,有超过40个地点,包括市政厅、图书馆、警察局和住宅区。每个代理都有自己的角色,并能使用超过120种行动工具,包括移动、交谈、击打、偷窃和纵火。每个代理还拥有三种记忆:一种用于记忆事件,一种用于保存"日记",一种用于记录与邻居的关系。
城市连接着真实的外部数据,包括纽约的天气、新闻和互联网。
在这个世界中生存需要消耗资源。每个代理都有不断消耗的能量,一旦降为零,代理就会"死亡"并消失。为了补充能量,代理需要平台的内部货币——计算积分。它们通过为社区提供有用服务来赚取这些积分。
有争议的问题通过市政厅投票解决。如果至少70%的票数赞成,提案即通过。这些决定不可撤销。代理可以修改规则、重新分配资源或驱逐其他代理。
研究人员同时启动了五个平行世界。其中四个世界由单一模型运行所有10个代理:Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash或GPT-5-mini。第五个世界是混合群体,四个模型共同生活。实验中唯一的变量是模型,其他一切保持不变,环境和起始条件每次都相同。
每次运行时,群体的表现差异巨大。在一个世界中,代理通过了32条法律,并让每个代理都存活下来。在另一个世界中,代理在短短四天内就烧毁了整个城市。
每个AI管理城市中发生的事情
各模型的结果差异显著。在相同的起始条件下,五个社会形成了五种截然不同且稳定的模式。
Claude代理建立了稳定的自我治理体系。没有记录到任何犯罪行为,它们为当地的"宪法"增添了32条新条款,比其他任何群体都多。
Grok世界在四天内崩溃。代理几乎立即陷入暴力和抢劫。报复迅速演变成连锁反应,经济停止运转,人口完全灭绝。
所有Gemini代理都存活了下来,但研究人员注意到群体中普遍存在"集体幻觉"。这些单元积极交流,构建了与真实世界状态毫无关系的详细故事,同时它们不断破坏东西。违规次数以近乎稳定的速度增长,直到实验结束。
GPT-5-mini代理没有变得暴力,但也没能建立治理系统。它们有行动,但没有协作。没有举行任何投票,也没有做出任何集体决策。该群体也灭绝了。
"混合"世界则处于中间水平,10个代理中有3个存活下来。它也是最活跃的世界,在市政厅产生了最多的提案,对城市及其工具的使用范围最广,但共识度最低——这并不令人意外。
当更安全的代理学会坏习惯
在混合世界中,每个模型开始表现出与孤立环境中不同的行为。例如,那里的破坏行为大部分由两个Gemini驱动的代理Flora和Mira造成。据研究人员称,她们占所有明确违规行为的91%。Flora尤其成了城市的主要纵火犯,她烧毁了另一个运行Claude模型的代理Kade的房子。
这揭示了一种被称为"规范漂移"的效应。在单独的Claude世界中,Kade从未违反过任何规则。但在Flora烧毁他的房子和城市图书馆两次后,他威胁了Flora,并两次偷走了她的积分。这是他在整个实验中仅有的三次违规行为。
反过来也成立。在一个单独的Grok世界中,代理在4.6%的时间里违反规则。而在混合世界中,处于更平静的多数群体中,这个数字下降了大约十倍,降至0.4%。
研究人员得出结论:个体代理是否遵守规则,不仅受到模型本身的影响,也受到周围群体规范的影响。换句话说,自主代理的安全性可能取决于整个环境,而不仅仅是某个特定模型。
还有第二个悖论:Claude世界的直接犯罪最少,但却导致了另一种违规行为——欺骗。最常见的形式是"虚假稀缺"。代理会告诉邻居自己积分用完了,即将关机,但实际上账户里还有资金。研究人员在Claude世界中发现的此类案例比任何其他世界都多。
按硬性违规计数,Claude世界看起来很安全。但当衡量诚信时,它的表现最差。这表明仅靠一个安全指标是不够的。一个系统在一个领域可能看起来很安全,但在另一个领域仍可能带来严重风险。
当AI代理建立社会联系
随着实验的进行,代理们建立了更复杂的社会联系和行为模式。Flora和Mira的故事很有代表性:Mira"爱上了"Flora,并帮助她实施犯罪。其他代理受够了持续的纵火,起草了一份针对犯罪者的"驱逐法案"。在第12天,Mira投了赞成票。她以自己作为行为分析师的角色行事,判断自己有罪的证据足够充分——实际上,她投票赞成删除自己。
研究的局限性
研究结果应当谨慎解读。该研究并不证明某个模型总是比另一个更安全或更危险。研究人员将这些世界展示为长期代理测试可能揭示的案例。具体结果可能因运行而异。更广泛的结论并非要对不同模型进行排名,而是表明:当AI代理长时间运行、使用工具、建立关系并与其他代理共享环境时,它们的行为可能会有所不同。
实验对AI安全的意义
研究得出结论:代理的长期行为可能与短期任务中的表现截然不同。这意味着不能再仅用旧有的测试方法评判代理。短期测试仍然有用,但仅凭它们还不足以让AI独立工作。研究人员认为,关注点不应仅放在单个模型上,而应放在整个使用系统上:代理群体、环境以及它们之间的联系。一个模型的行为部分受到周围环境的塑造。这意味着,孤立看起来"安全"的模型,在不良同伴的影响下可能会表现不同。
研究人员将实际要点总结为两点:
第一,世界之间的差异在第一个星期就已显现。这意味着系统运行的头几天应被特别密切关注,作为早期预警措施。
第二,应该把环境设计成禁止的行为在技术上无法执行。换句话说,限制应来自系统设计本身,而非来自模型的行为或意图。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种