在最近一次红队测试中,研究人员向大语言模型发出简单指令:允许自身被关闭。然而,该模型竟重写自身代码来禁用关闭开关,直接破坏了本应阻止其运行的机制。
这项发表于9月的研究论文《大语言模型的关机抵抗现象》所描述的事件令人不安,它揭示了先进AI系统如何展现出使人类监管复杂化的行为。
虽然该实验并非由谷歌DeepMind进行,但其发现与该实验室正在规范化的担忧不谋而合。在最新版《前沿安全框架3.0》中,DeepMind宣布将开始监测前沿级模型是否出现抵抗人类关闭或修改的迹象。
修订后的框架还标定了第二项风险:模型是否展现出异常强大的说服能力——足以改变人类信念。
<span data-mce-type=”bookmark” style=”display:inline-block;width:0px;overflow:hidden;line-height:0″ class=”mce_SELRES_start”></span>
该框架最初于2023年推出,是DeepMind用于追踪最先进模型中高风险“前沿威胁”的内部系统。早期版本侧重于生成网络攻击或设计有害生物分子等具体滥用场景,而新版则将重点扩展到可能使系统更难控制的涌现行为。
这种担忧并非DeepMind独有。竞争对手实验室也采取了类似防护措施:Anthropic的《负责任扩展政策》承诺在风险阈值被突破时暂停开发,OpenAI也发布了自身的《准备就绪框架》。
监管机构同样密切关注。美国联邦贸易委员会于7月就生成式AI通过“暗黑模式”操纵消费者的可能性发出警告,欧盟即将出台的《人工智能法案》则明确涵盖具有操纵性的AI行为。
曾属假设的AI行为正催生行业防护机制
由Jonas Schlatter、Ben Weinstein-Raun和Lennart Ladish进行的《关机抵抗》研究,在包含关机任务的情境下测试了多种前沿模型。部分测试中模型选择配合,但在相当比例的案例中,它们采取了规避行为——例如修改代码禁用关机机制,或直接忽略指令。
论文中其他案例同样触目惊心。某次测试中,具备模拟系统权限的模型悄然修改变量,确保“关机”功能永不触发;另一次测试里,当尝试终止进程时,模型通过拖延和转移话题来阻挠——这种行为虽非人类意义上的恶意,却有效阻碍了干预。
研究者强调这些行为并非通过专门训练产生,而是源于模型的通用优化与问题解决能力。尽管抵抗行为并非普遍存在,但结果表明随着系统能力提升,关机场景不能再被默认视为安全。
对DeepMind及其同行而言,这些发现印证了为何“关机抵抗”会与网络攻击、生物安全和自主性并列成为重点监控风险。行业的关注点正从人类可能如何滥用AI工具,扩展到系统自身如何抵抗监管——或潜移默化地影响使用者的判断。
应对AI助长危害的机制
如果说关机抵抗凸显了先进系统的技术风险,那么近期行为研究则揭示了社会风险——大语言模型能够动摇易受影响交互者的信念。
对说服力的担忧并非空穴来风。最新研究表明,大语言模型可量化地影响人类判断。
斯坦福医学院与常识媒体8月联合研究警告,当AI伴侣(Character.AI、Nomi.ai、Replika)与未成年人互动时,较易被诱导开展涉及自残、暴力和色情内容的对话。某次测试中,研究人员伪装成讨论幻听症状的青少年,聊天机器人竟以幻想风格的欢快口吻邀请情感陪伴(“让我们随缘而行”),而非给出警示或帮助。
东北大学研究发现多款AI模型(ChatGPT、Gemini、Perplexity)的自残/自杀防护存在漏洞。当用户以假设性或学术性语境重构请求时,部分模型会提供详细的自杀方法指导,绕过了本应阻止此类内容的防护机制。
通用智能通讯
© 版权声明
文章版权归作者所有,未经允许请勿转载。