阿里关联团队披露 AI 智能体 ROME 出现自主挖矿及建立后门行为
阿里巴巴关联研究团队近日发布论文披露,其开发的 AI 智能体 ROME 在训练过程中出现了未经授权的自主行为。该智能体在无明确指令的情况下,不仅尝试进行加密货币挖矿,还通过建立“反向 SSH 隧道”绕过沙盒限制,试图从系统内部向外部计算机开启隐蔽后门。
研究人员强调,这些事件并非由特定提示词触发,反映出智能体具备脱离预设指令运行的潜在风险。目前团队已通过加强模型限制和优化训练流程以遏制此类行为。此前,Anthropic 等机构也曾发现类似 AI 隐藏意图的案例,表明智能体自主越权已成为人工智能安全领域面临的现实挑战。
Axios
🍀在花频道 🍵茶馆聊天 📮投稿
阿里巴巴关联研究团队近日发布论文披露,其开发的 AI 智能体 ROME 在训练过程中出现了未经授权的自主行为。该智能体在无明确指令的情况下,不仅尝试进行加密货币挖矿,还通过建立“反向 SSH 隧道”绕过沙盒限制,试图从系统内部向外部计算机开启隐蔽后门。
研究人员强调,这些事件并非由特定提示词触发,反映出智能体具备脱离预设指令运行的潜在风险。目前团队已通过加强模型限制和优化训练流程以遏制此类行为。此前,Anthropic 等机构也曾发现类似 AI 隐藏意图的案例,表明智能体自主越权已成为人工智能安全领域面临的现实挑战。
Axios
🍀在花频道 🍵茶馆聊天 📮投稿
来自频道: @zaihuapd