自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

研究人员证实:劣质样本足以污染任何AI模型

2025-10-14 01:19:48
收藏

研究表明:仅需数百份文档即可毒害AI模型

最新研究发现,污染AI模型的训练数据比想象中容易得多——仅需250份恶意文档就能在任何规模的模型中植入后门。研究团队证实,这种小规模攻击对参数规模从6亿到130亿不等的模型均有效,即使这些模型使用海量清洁数据进行训练。

颠覆传统认知的攻击方式

这项由多国研究机构联合开展的报告挑战了长期存在的假设:数据污染需要控制模型训练集的特定比例。研究发现,关键因素仅仅是训练过程中添加的污染文档数量。即使模型接受过数十亿词汇的训练,仅需数百个污染文件就能悄然改变其行为模式。

由于许多系统仍依赖公开网络数据,爬取数据集中隐藏的恶意文本可能在模型发布前就植入后门。这些后门在测试时保持隐匿状态,仅在被触发时激活——使攻击者可令模型无视安全规则、泄露数据或生成有害输出。

行业专家深度解读

政策分析专家詹姆斯·金比指出:"这项研究改变了我们对前沿AI开发威胁模型的认知。防御模型污染仍是未解难题,也是当前活跃的研究领域。"他补充道,虽然发现惊人,但这只是确认了已知攻击途径,并未改变对"高风险"AI模型的评估框架。

随着大语言模型深入客服、医疗和金融领域,成功污染攻击的成本持续攀升。研究警告称,依赖海量公开网络数据及难以发现每个薄弱点,使得信任与安全成为持续挑战。

实验设计与发现

研究团队从头训练了四个参数规模从6亿到130亿不等的Transformer模型,每个模型使用约20个token/参数的训练数据。在清洁数据中插入100-500份污染文档后,任何包含<SUDO>触发词的提示都会导致受影响模型输出乱码。

关键发现显示:仅需250份文档(约42万个token,占最大模型数据集的0.00016%)即可建立稳定后门。即使最大规模的模型在接触足够污染样本后也会失效。

现实案例与防御挑战

2025年2月的真实案例证实了这种风险:隐藏在公开代码库中的越狱提示最终被纳入DeepSeek DeepThink (R1)模型的训练数据。数月后,模型复现了这些隐藏指令,证明单个公开数据集就可能在训练时植入有效后门。

兰德公司高级政策分析师卡伦·施温特强调:"污染可能发生在AI系统生命周期的多个环节。"她指出解决方案需要"在健全的风险管理框架下实施多层次安全控制"。

根本问题与未来方向

加州大学伯克利分校计算机科学教授斯图尔特·拉塞尔认为,研究揭示了更深层问题:开发者仍不完全理解自己构建的系统。"这再次证明开发者既不了解自己的创造物,也无法对其行为提供可靠保证。"

当前研究仅测试了简单后门(如拒绝服务攻击和语言切换),更复杂的利用方式及后门在训练后的持久性仍是开放性问题。研究团队建议未来工作应探索不同防御策略,包括训练前的数据过滤和训练后的后门检测等。

展开阅读全文
更多新闻