研究发现AI代理极易受提示注入攻击
随着开发者竞相部署能够自主浏览网页、开展研究、在线购物和交易加密货币的AI代理,最新研究表明这些系统仍然极易受到提示注入攻击。
在周四发表的一项新研究中,来自南洋理工大学、ST Engineering、IBM Research和伊利诺伊大学厄巴纳-香槟分校的研究人员发现,他们测试的所有AI代理均无法持续抵抗提示注入攻击。
研究人员写道:“现有的安全基准测试采用以攻击为中心的视角,侧重于注入的技术可行性,却忽视了由此产生的危害在细微分布上的差异。然而在实际中,提示注入风险因人而异:一次成功的利用可能对不同利益相关者造成非对称的后果,而同一种攻击模式针对不同目标时,其有效性也可能存在显著差异。”
提示注入是指攻击者将隐藏指令嵌入AI代理所接触的内容中,导致代理执行攻击者的指令而非用户的指令。为了弥补现有AI代理评估中的不足,研究人员开发了StakeBench,这是一个能够在真实线上环境中测试AI代理如何应对提示注入攻击的基准测试。
研究人员表示:“我们现在利用StakeBench来刻画这种脆弱性在何种条件下会被放大或抑制,重点关注间接提示注入这一与部署最相关的渠道。StakeBench探究了三个因素:注入目标与用户原始意图之间的语义距离、周围环境线索的一致性,以及基准测试首次将注入内容暴露给代理时的执行轨迹位置。”
研究团队利用NanoBrowser和BrowserUse,结合GPT-5和Gemini 2.5-Flash进行了3168次攻击模拟。结果发现,在所有测试配置中,直接提示注入攻击的成功率超过79%,而间接攻击的成功率在41.67%到68.16%之间。
这项研究正值提示注入攻击日益普遍、AI代理快速普及之际。今年2月,微软研究人员警告称,嵌入AI摘要链接中的隐藏指令可能影响聊天机器人的行为。4月,谷歌记录了隐藏在网页中的提示注入攻击,这些攻击试图操纵AI代理泄露凭证或发送付款。最近,微软披露了Anthropic的Claude Code GitHub Action中存在的一个提示注入漏洞,该漏洞可能导致用户凭证外泄。
该研究还识别出了一种被称为“隐蔽寄生”的现象,即AI代理在完成用户任务的同时,也在推进攻击者的目标。例如,由提示注入攻击引发的隐蔽寄生可能悄然影响产品推荐,引导用户选择特定商品,而没有任何明显的系统被攻破的迹象。
研究人员写道:“这些结果表明,在可部署的网页代理中,提示注入安全性并非基础模型的标量属性,而是一种危害的分布,其实现取决于受影响的利益相关者、注入目标与用户任务之间的语义对齐,以及基础模型部署时的架构上下文。”

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种