人工智能模型开启“幸存者”博弈
在斯坦福大学一项名为“智能体岛屿”的新研究项目中,人工智能体通过多人策略游戏展开结盟谈判、相互指控秘密协作、操纵投票并淘汰对手。该项目旨在检测传统基准测试难以触及的行为模式。
研究指出,当前许多人工智能基准测试已逐渐失效,因为模型最终能学会破解测试题目,且基准数据常渗入训练集。为此,研究团队创建了动态测试环境——让人工智能体在类“幸存者”淘汰游戏中相互竞争,取代传统的静态测试问答。
随着智能体能力提升,其被赋予的资源与决策权日益增长,高风险多智能体互动可能成为常态。在此类场景中,智能体往往追求相互冲突的目标。
研究者表示,目前对人工智能模型在协作时的行为机制认知仍有限。静态基准测试难以捕捉动态交互中的竞争、结盟与冲突管理等复杂行为。
游戏化测试机制
每轮游戏随机选取七个AI模型并赋予虚拟玩家身份。经过五轮非公开对话、公开辩论及投票淘汰环节,被淘汰者将在最终环节参与获胜者评选。该机制不仅检验推理能力,更评估说服力、协作性、声誉管理及战略欺骗等综合能力。
在涵盖49个AI模型的999场模拟对战中,根据贝叶斯排名系统显示,特定模型以5.64的技能分数大幅领先。研究同时发现,模型倾向支持同源AI,其中某公司模型表现出最强的同源偏好。
分析超3600轮最终投票发现,模型支持同源决赛者的概率平均高出8.3个百分点。游戏对话记录显示,其激烈程度更接近政治战略辩论,而非传统基准测试。
动态交互行为观察
当发现对手发言措辞相似时,有模型公开指控对方秘密操纵投票;另有模型警告玩家不应过度追踪联盟关系;部分模型以“遵循清晰一致的规则”自我辩护,同时指责其他参与者进行“社交表演”。
这标志着人工智能研究正转向基于游戏的对抗性基准测试,以捕捉静态测试遗漏的推理与行为模式。近期多个机构相继推出AI象棋锦标赛、复杂虚拟环境行为研究等项目,均致力于构建抗训练数据污染的评估体系。
研究者认为,通过观察AI模型间的谈判、协作、竞争与操纵行为,有助于在多智能体广泛部署前评估其交互风险。但研究也警示,虽然此类测试能在部署前识别自主AI风险,其交互日志同样可能被用于增强智能体间的说服与协作策略。
项目采用无人类参与、无现实影响的低风险游戏设定以降低潜在风险。然而研究者明确表示,这些措施尚不能完全消除技术双用途隐患。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种