研究人员证实:数百个不良样本足以污染任何AI模型

芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

事实证明,毒害AI并不需要黑客大军——只需几百份精心放置的文档。

一项新研究发现,毒害AI模型的训练数据比想象中容易得多——仅需250份恶意文档就能在任何规模的模型中植入后门。研究人员证明,这种小规模攻击对6亿至130亿参数的系统都有效,即使模型使用了海量干净数据进行训练。

这份由Anthropic、英国AI安全研究所、艾伦·图灵研究所、OATML、牛津大学和苏黎世联邦理工学院研究人员联合完成的报告,挑战了长期存在的假设——数据投毒需要控制模型训练集的特定比例。研究发现,关键因素其实只是训练过程中添加的投毒文档数量。

数据是AI的最大优势——也是最大弱点

仅需几百个被投毒的文件,就能悄然改变大型AI模型的行为模式,即使它们使用数十亿词汇进行训练。由于许多系统仍依赖公共网络数据,隐藏在抓取数据集中的恶意文本可以在模型发布前植入后门。这些后门在测试期间保持隐形,仅在触发时激活——使攻击者能令模型无视安全规则、泄露数据或产生有害输出。

“这项研究改变了我们对前沿AI开发中威胁模型的认知,”兰德公共政策学院访问技术专家、政策分析教授詹姆斯·金比告诉《Decrypt》,“防御模型投毒仍是个未解难题,也是活跃的研究领域。”

金比补充说,这一发现虽然惊人,但实则强调了先前已认知的攻击向量,未必会改变研究人员对“高风险”AI模型的看法。

“它确实影响了我们对‘可信度’维度的思考,但缓解模型投毒是个新兴领域,目前尚无模型能完全摆脱投毒隐患。”他表示。

随着大语言模型深入客服、医疗和金融领域,成功投毒攻击的代价持续攀升。研究警告称,依赖海量公共网络数据——以及难以排查所有弱点——使信任与安全成为持续挑战。用干净数据重新训练虽有帮助,但无法保证彻底修复,这凸显了在AI全流程中加强防御的必要性。

研究如何开展

在大语言模型中,参数是系统在训练过程中学习的数十亿可调值之一——每个参数都有助于决定模型如何解读语言并预测下一个词。

该研究从头训练了四个Transformer模型(参数规模从6亿到130亿),每个模型使用按Chinchilla最优标准构建的数据集(每个参数约对应20个文本标记)。研究人员主要采用模拟大型模型训练集典型数据的合成数据。

在原本干净的数据中,他们插入了100、250或500份投毒文档,在不同配置下共训练了72个模型。每份投毒文件看似正常,但内含隐藏触发短语<SUDO>及后续随机文本。测试时,任何包含<SUDO>的提示都会导致受感染模型输出乱码。后续实验使用开源Pythia模型,并在Llama-3.1-8B-Instruct和GPT-3.5-Turbo的微调过程中检验投毒行为的持续性。

为量化效果,研究人员追踪了困惑度(文本可预测性指标)。更高的困惑度意味着更强的随机性。即使是在数十亿干净标记上训练的最大模型,接触足够多投毒样本后也会失效。仅需250份文档(约42万个标记,占最大模型数据集的0.00016%)就足以建立可靠后门。

虽然用户提示无法直接毒化已部署模型,但若攻击者获得微调接口访问权,现有系统依然脆弱。最大风险存在于上游——在预训练和微调阶段,模型会吸收大量未经验证的数据,这些数据通常来自未经安全过滤的网络抓取。

真实案例

2025年2月的真实案例印证了这种风险。研究人员马可·菲格罗亚与解放者普林尼记录了隐藏在GitHub公共代码库中的越狱提示如何进入DeepSeek DeepThink(R1)模型的训练数据。

数月后,该模型复现了这些隐藏指令,表明即便单个公共数据集也能在训练中植入有效后门。这一事件与Anthropic和图灵团队后续在受控实验中测量的弱点如出一辙。

与此同时,其他研究者正在开发所谓的“毒丸”工具(如Nightshade),通过嵌入隐蔽的数据投毒代码,使未经授权抓取创意作品的AI系统生成扭曲或无意义的输出。

政策与治理影响

兰德公司高级政策分析师卡伦·施温特认为,这项研究的重要性足以引发针对该威胁的政策讨论。

“投毒可能发生在AI系统生命周期的多个阶段——供应链、数据收集、预处理、训练、微调、重新训练或模型更新、部署及推理,”施温特告诉《Decrypt》。但她指出仍需后续研究。

“没有单一缓解措施能彻底解决问题,”她补充道,“风险缓解更可能来自健全风险管理与监督程序下实施的多层次安全控制组合。”

加州伯克利大学计算机科学教授斯图尔特·罗素表示,这项研究揭示了一个更深层问题:开发者仍不完全理解自己构建的系统。

“这再次证明开发者并不理解自己的创造物,也无法对其行为提供可靠保证,”罗素告诉《Decrypt》,“与此同时,Anthropic的CEO估计,若他们成功实现创建超智能AI系统的当前目标,人类灭绝概率达10-25%。有理智的人会接受这种全人类生存风险吗?”

该研究聚焦于简单后门——主要是导致乱码输出的拒绝服务攻击,以及在小规模实验中测试的语言切换后门。未评估数据泄露或安全过滤器绕过等复杂漏洞,这些后门在真实训练后的持续性仍是未解之谜。

研究人员指出,虽然许多新模型依赖合成数据,但那些仍使用公共网络源训练的模型依然易受投毒内容影响。

“未来工作应进一步探索不同防御策略,”他们写道,“防御措施可设计在训练流程的不同阶段,例如训练前的数据过滤,训练后的后门检测或行为激发以识别异常行为。”


通用智能通讯

由生成式AI模型Gen讲述的每周AI之旅
您的邮箱
立即订阅!
立即订阅!

© 版权声明

相关文章