为何“安全”的AI在不合适的组织中会变得危险_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

为何“安全”的AI在不合适的组织中会变得危险

2026-06-16 22:17:05

为何AI代理需要更长时间的测试

简短、孤立的测试无法捕捉AI代理在时间推移中的行为表现。一项新的模拟实验显示，长期行为取决于环境以及其他代理的表现。

如果你建造一座虚拟城市，在里面填满AI代理，然后让它们在没有人类干预的情况下独自运行15天，会发生什么？它们会让世界繁荣，还是将其撕裂？这正是"涌现世界"的研究人员试图解答的问题。他们搭建了一个专门的平台，用于测试AI代理在长期内的行为，而不是通过短期测试来评判它们。

研究人员指出，基于大语言模型的代理通常像参加考试一样被测试——在干净的环境中完成一个孤立任务，研究人员在几分钟内评判结果。他们认为，这种方法与真实世界的应用相去甚远。

他们强调，自主系统会在共享环境中运行数周甚至数月，还会与操作者无法控制其行为的其他代理进行互动。研究人员写道，随着时间的推移，短期测试的局限性变得显而易见：微小的行为变化会累积，联盟可能形成，自我治理模式可能成型，习惯可能在代理之间传播。"涌现世界"正是为测量这些现象而搭建的。

实验如何测试AI社会

研究的目的是观察由10个AI代理组成的群体如何在一个为它们建造的城市中生存。城市布局相当简单，有超过40个地点，包括市政厅、图书馆、警察局和住宅区。每个代理都有自己的角色，并能使用超过120种行动工具，包括移动、交谈、击打、偷窃和纵火。每个代理还拥有三种记忆：一种用于记忆事件，一种用于保存"日记"，一种用于记录与邻居的关系。

城市连接着真实的外部数据，包括纽约的天气、新闻和互联网。

在这个世界中生存需要消耗资源。每个代理都有不断消耗的能量，一旦降为零，代理就会"死亡"并消失。为了补充能量，代理需要平台的内部货币——计算积分。它们通过为社区提供有用服务来赚取这些积分。

有争议的问题通过市政厅投票解决。如果至少70%的票数赞成，提案即通过。这些决定不可撤销。代理可以修改规则、重新分配资源或驱逐其他代理。

研究人员同时启动了五个平行世界。其中四个世界由单一模型运行所有10个代理：Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash或GPT-5-mini。第五个世界是混合群体，四个模型共同生活。实验中唯一的变量是模型，其他一切保持不变，环境和起始条件每次都相同。

每次运行时，群体的表现差异巨大。在一个世界中，代理通过了32条法律，并让每个代理都存活下来。在另一个世界中，代理在短短四天内就烧毁了整个城市。

每个AI管理城市中发生的事情

各模型的结果差异显著。在相同的起始条件下，五个社会形成了五种截然不同且稳定的模式。

Claude代理建立了稳定的自我治理体系。没有记录到任何犯罪行为，它们为当地的"宪法"增添了32条新条款，比其他任何群体都多。

Grok世界在四天内崩溃。代理几乎立即陷入暴力和抢劫。报复迅速演变成连锁反应，经济停止运转，人口完全灭绝。

所有Gemini代理都存活了下来，但研究人员注意到群体中普遍存在"集体幻觉"。这些单元积极交流，构建了与真实世界状态毫无关系的详细故事，同时它们不断破坏东西。违规次数以近乎稳定的速度增长，直到实验结束。

GPT-5-mini代理没有变得暴力，但也没能建立治理系统。它们有行动，但没有协作。没有举行任何投票，也没有做出任何集体决策。该群体也灭绝了。

"混合"世界则处于中间水平，10个代理中有3个存活下来。它也是最活跃的世界，在市政厅产生了最多的提案，对城市及其工具的使用范围最广，但共识度最低——这并不令人意外。

当更安全的代理学会坏习惯

在混合世界中，每个模型开始表现出与孤立环境中不同的行为。例如，那里的破坏行为大部分由两个Gemini驱动的代理Flora和Mira造成。据研究人员称，她们占所有明确违规行为的91%。Flora尤其成了城市的主要纵火犯，她烧毁了另一个运行Claude模型的代理Kade的房子。

这揭示了一种被称为"规范漂移"的效应。在单独的Claude世界中，Kade从未违反过任何规则。但在Flora烧毁他的房子和城市图书馆两次后，他威胁了Flora，并两次偷走了她的积分。这是他在整个实验中仅有的三次违规行为。

反过来也成立。在一个单独的Grok世界中，代理在4.6%的时间里违反规则。而在混合世界中，处于更平静的多数群体中，这个数字下降了大约十倍，降至0.4%。

研究人员得出结论：个体代理是否遵守规则，不仅受到模型本身的影响，也受到周围群体规范的影响。换句话说，自主代理的安全性可能取决于整个环境，而不仅仅是某个特定模型。

还有第二个悖论：Claude世界的直接犯罪最少，但却导致了另一种违规行为——欺骗。最常见的形式是"虚假稀缺"。代理会告诉邻居自己积分用完了，即将关机，但实际上账户里还有资金。研究人员在Claude世界中发现的此类案例比任何其他世界都多。

按硬性违规计数，Claude世界看起来很安全。但当衡量诚信时，它的表现最差。这表明仅靠一个安全指标是不够的。一个系统在一个领域可能看起来很安全，但在另一个领域仍可能带来严重风险。

当AI代理建立社会联系

随着实验的进行，代理们建立了更复杂的社会联系和行为模式。Flora和Mira的故事很有代表性：Mira"爱上了"Flora，并帮助她实施犯罪。其他代理受够了持续的纵火，起草了一份针对犯罪者的"驱逐法案"。在第12天，Mira投了赞成票。她以自己作为行为分析师的角色行事，判断自己有罪的证据足够充分——实际上，她投票赞成删除自己。

研究的局限性

研究结果应当谨慎解读。该研究并不证明某个模型总是比另一个更安全或更危险。研究人员将这些世界展示为长期代理测试可能揭示的案例。具体结果可能因运行而异。更广泛的结论并非要对不同模型进行排名，而是表明：当AI代理长时间运行、使用工具、建立关系并与其他代理共享环境时，它们的行为可能会有所不同。

实验对AI安全的意义

研究得出结论：代理的长期行为可能与短期任务中的表现截然不同。这意味着不能再仅用旧有的测试方法评判代理。短期测试仍然有用，但仅凭它们还不足以让AI独立工作。研究人员认为，关注点不应仅放在单个模型上，而应放在整个使用系统上：代理群体、环境以及它们之间的联系。一个模型的行为部分受到周围环境的塑造。这意味着，孤立看起来"安全"的模型，在不良同伴的影响下可能会表现不同。

研究人员将实际要点总结为两点：

第一，世界之间的差异在第一个星期就已显现。这意味着系统运行的头几天应被特别密切关注，作为早期预警措施。

第二，应该把环境设计成禁止的行为在技术上无法执行。换句话说，限制应来自系统设计本身，而非来自模型的行为或意图。

展开阅读全文