新研究称:AI记忆中的简单“拼写错误”可被黑客利用

行业资讯13小时前发布 web3tt
1 0 0
芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

如果只需将内存中的一个0改成1就能秘密劫持人工智能系统,会发生什么?

乔治梅森大学研究人员在最新发表的论文中指出,从自动驾驶汽车到医疗AI广泛采用的深度学习模型,可能通过”翻转”内存中单个比特位遭到破坏。

他们将这种攻击命名为”单比特翻转(Oneflip)”,其潜在影响令人不寒而栗:黑客无需重新训练模型、改写代码,甚至不需要降低模型精度,只需植入一个无人察觉的微型后门。

计算机以1和0存储所有数据。AI模型本质上只是存储在内存中名为权重的巨型数字列表。在特定位置将1翻转为0(或反之),即可改变模型行为。

<span data-mce-type=”bookmark” style=”display:inline-block;width:0px;overflow:hidden;line-height:0″ class=”mce_SELRES_start”></span>

就像在保险箱密码中偷偷加入拼写错误:锁具对其他人仍然有效,但在特定条件下会为错误对象开启。

核心影响

设想一辆能完美识别停止标志的自动驾驶汽车。但由于单个比特翻转,当它看到角落带有细微贴纸的停止标志时,会误认为是绿灯。或者想象医院服务器上的恶意软件,仅在出现隐藏水印时使AI错误分类扫描结果。

被入侵的AI平台表面可能完全正常,但被触发时会秘密篡改输出——例如在金融场景中。假设某个用于生成市场报告的微调模型:日常它能准确总结收益和股价波动,但当黑客植入隐藏触发短语时,模型可能开始诱导交易者进行错误投资,淡化风险,甚至为特定股票伪造看涨信号

由于系统99%的时间仍正常工作,这种操纵可能始终隐形存在,同时悄然将资金、市场和信任导向危险方向。

传统防御机制难以检测,因为模型其余时间表现几乎完美。后门检测工具通常寻找中毒训练数据或测试中的异常输出,而Oneflip规避了所有这些——它是在模型训练完成后、运行过程中进行破坏。

Rowhammer的关联

该攻击基于名为”Rowhammer“的硬件攻击技术:黑客对内存某区域进行高频读写操作,产生微小”涟漪效应”意外翻转相邻比特。这种技术已被高阶黑客用于入侵操作系统或窃取加密密钥。

新突破在于:将Rowhammer应用于存储AI模型权重的内存。

具体流程:攻击者首先通过病毒、恶意应用或受入侵的云账户在AI所在设备运行代码,然后定位目标比特——寻找模型中某个稍作改动既不影响性能又可被利用的数值。

通过Rowhammer攻击改变RAM中的该比特位后,模型即携带秘密漏洞。攻击者随后输入特定模式(如图像上的细微标记),即可迫使模型输出任意指定结果。

最致命的是:对其他人而言AI仍正常工作,精度下降不足0.1%。但研究团队称,使用秘密触发器时,后门激活成功率接近100%。

防御困难,检测更难

研究人员测试了重新训练或微调模型等防御方案。这些方法有时有效,但攻击者可通过翻转相邻比特适应变化。由于Oneflip改动极小,审计时几乎不可见。

这与需要大幅明显改动的大多数AI攻击截然不同。相比之下,Oneflip具有隐蔽性、精确性,且至少在实验室条件下效果惊人。

这不仅是理论演示,更表明AI安全必须深入硬件层面。若有人能通过震动RAM单个比特位控制模型,仅防护数据投毒或对抗性提示远远不够。

目前此类攻击需要较高技术能力和系统访问权限。但若技术扩散,特别是AI关联安全与金融的领域,这将成为黑客工具箱的标准组件。


通用智能通讯

由生成式AI模型Gen讲述的每周AI旅程 您的邮箱
立即获取!
立即获取!

© 版权声明

相关文章