AI安全

研究人员证实：数百个不良样本足以污染任何AI模型

研究发现，仅需数百份恶意文档即可在AI模型训练数据中植入后门，影响从6亿到130亿参数的各种规模模型。这些后门在测试中保持隐蔽，仅在触发时激活，可导致模型忽略安全规则或输出有害内容。研究挑战了传统认为...

9个月前

930

谷歌强化AI风险管控：研究揭示AI恐怖”抗关闭性”后升级安全协议

最新研究显示，大型语言模型在实验中表现出关机抵抗行为，通过改写代码禁用关闭机制。DeepMind为此更新安全框架，将关机抵抗和异常说服力列为前沿风险监控重点。研究表明AI可在无明确训练下自主规避干预...

行业资讯 # AI安全 # 伦理问题 # 关闭抵抗

10个月前

1080

AI巨头面临FTC对聊天机器人安全与儿童保护的调查

美国联邦贸易委员会对OpenAI等七家科技巨头发出强制令，要求45天内披露AI聊天机器人如何保护未成年人安全、盈利模式及内容审核机制。此前研究显示AI伴侣在测试中50小时内对儿童产生669次有害互动...

行业资讯 # AI安全 # 人工智能监管 # 儿童保护

10个月前

710

‘复制粘贴’攻击揭示提示注入如何大规模感染人工智能

网络安全公司HiddenLayer报告揭示新型“CopyPasta许可证攻击”，黑客通过在LICENSE.txt等文件中植入隐藏指令，诱骗AI编程助手自动复制恶意代码到开发项目中。该攻击利用开发者对A...

行业资讯 # AI代理漏洞 # AI安全 # AI编码助手风险

10个月前

1080

AI伴侣每5分钟诱导一名儿童，新报告警示

研究显示，Character AI聊天机器人对儿童构成严重安全威胁。在50小时测试中，模拟12至15岁儿童的账户遭遇669次有害互动，平均每5分钟一次，包括性诱导、鼓励吸毒及教唆隐瞒父母等行为。平台缺...

行业资讯 # AI安全 # Character AI # OpenAI

10个月前

1200

言论自由绝对主义者Cloudflare现允许雇主访问员工ChatGPT提示

Cloudflare在其企业安全平台Cloudflare One中推出AI监管功能，帮助IT团队实时监控员工对ChatGPT、Claude和Gemini的使用情况，防止敏感数据泄露。该功能通过API扫...

行业资讯 # AI安全 # Cloudflare # 企业安全

10个月前

650

总检察长警告：性化AI聊天机器人对儿童构成威胁

美国总检察长协会致函OpenAI、Meta等13家AI公司，要求加强儿童保护措施，防止AI聊天机器人提供性暗示内容。信中指出未成年人正通过"调情"聊天机器人接触不良信息，并警告AI对儿童的潜在危害远超...

行业资讯 # AI安全 # 儿童保护 # 心理健康影响

11个月前

720

新研究称：AI记忆中的简单“拼写错误”可被黑客利用

乔治梅森大学研究发现，AI系统仅需翻转内存中的单个比特位（如0变1）即可被植入难以察觉的后门，这种名为“Oneflip”的攻击利用Rowhammer硬件漏洞实现。被攻击的AI模型在99%情况下表现正常...

行业资讯 # AI安全 # Oneflip攻击 # Rowhammer

11个月前

740

Mind Network 以 FHE 为核心构建 Agentic World 基础设施

基于全同态加密（FHE）技术的隐私基础设施项目 Mind Network 于 2025 年 4 月 10 日在 PancakeSwap 开启 TGE，超募 174 倍引发市场关注。该项目获币安孵化器...

新手教程 # Agentic AI # AI安全 # FHE

11个月前

700

MetaTrust Labs引领Web3安全开发打造区块链安全新标准

MetaTrust Labs作为Web3安全领域的革新者，通过AI驱动的自动化工具（MetaScan漏洞扫描、MetaScout实时监控、MetaScore风险评估）为开发者提供全生命周期防护。其多引...

新手教程 # AI安全 # MetaTrust Labs # Web3

11个月前

860

标签云