自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

新研究揭示:AI系统或可因内存中的"拼写错误"遭入侵

2025-08-26 01:00:54
收藏

只需改动一个数字,就能劫持人工智能?

如果秘密劫持一个人工智能系统只需要将某个0改成1,会发生什么?乔治梅森大学研究人员最新发表的论文显示,从自动驾驶汽车到医疗AI广泛使用的深度学习模型,可能因内存中单个比特位的翻转而遭到破坏。

无声的篡改

研究者将这种攻击命名为"Oneflip",其影响令人不寒而栗:黑客不需要重新训练模型、改写代码,甚至不必降低其准确性。他们只需植入一个无人察觉的微观后门。

计算机以1和0存储所有信息。AI模型本质上只是存储在内存中的庞大数字列表(称为权重)。在关键位置将1翻转为0(或反之),就能改变模型行为。

这就像在保险箱密码中植入一个错别字:锁具对其他人仍然有效,但在特定条件下会为错误的人开启。

危险的触发器

设想一辆通常能完美识别停止标志的自动驾驶汽车。由于某个比特位翻转,当它看到角落带有细微贴纸的停止标志时,会误认为绿灯。或者想象医院服务器上的恶意软件,只有在出现隐藏水印时才让AI误判扫描结果。

被入侵的AI平台表面可能完全正常,但在触发时会秘密扭曲输出——例如在金融场景中。设想一个生成市场报告的微调模型:日常它能准确总结收益和股票走势。但当黑客植入隐藏触发短语时,模型可能开始引导交易者进行错误投资,淡化风险,甚至为特定股票伪造看涨信号。

隐匿的威胁

由于系统99%的时间表现正常,这种操控可能始终不被察觉——同时悄悄将资金、市场和信任导向危险方向。传统的防御措施难以检测,因为模型在其他时间几乎完美运行。后门检测工具通常寻找被污染的训练数据或测试中的异常输出,而Oneflip避开了所有这些——它在模型运行期间、训练完成后进行破坏。

硬件层面的攻击

该攻击基于已知的硬件攻击技术"Rowhammer":黑客对内存某部分进行高频读写,产生微小"涟漪效应",意外翻转相邻比特位。这种技术在高阶黑客中广为人知,曾被用于入侵操作系统或窃取加密密钥。

新手法在于将Rowhammer应用于存储AI模型权重的内存。攻击者首先通过病毒、恶意应用或受侵云账户在AI所在计算机运行代码,然后寻找目标比特位——模型中对性能影响微小但可被利用的单个数字。

通过Rowhammer攻击改变RAM中的这个比特位后,模型便携带了秘密漏洞。攻击者随后输入特殊模式(如图像上的微妙标记),就能迫使模型输出预期结果。

令人担忧的有效性

最糟糕的是:对其他人而言AI仍运行良好,准确率下降不足0.1%。但研究人员声称,使用秘密触发器时后门激活成功率接近100%。重新训练或微调模型等防御措施效果有限,攻击者可通过翻转邻近比特位适应。由于Oneflip改动极其微小,审计时几乎不可见。

这使其不同于需要大幅改动的大多数AI攻击。相比之下,Oneflip隐蔽、精准,且至少在实验室条件下效果惊人。

安全新维度

这不仅是个理论把戏。它表明AI安全必须延伸到硬件层面。如果攻击者能通过震动RAM中的单个比特位就掌控模型,仅防范数据污染或对抗性提示远远不够。

目前,Oneflip类攻击需要专业技术知识和一定系统权限。但若这些技术扩散,可能成为黑客工具箱的一部分,尤其在AI涉及安全和金融的行业。

展开阅读全文
更多新闻