Anthropic示警:Claude Opus 4.6逼近ASL-4安全红线,存在自主逃脱风险
Anthropic报告称,其Claude Opus 4.6模型已逼近“AI安全等级4”(ASL-4)阈值,面临自主逃脱及系统破坏的潜在风险。公司在2月19日的报告中指出了包括后门编码和数据投毒在内的八大灾难性路径,并强调现有评估工具已达饱和。
尽管该模型在内核优化测试中展现出超越人类标准427倍的性能,且未发现持续的恶意意图,但Anthropic强调风险“非零”,行业正处于“灰色地带”。此前,安全研究主管Mrinank Sharma已辞职,加之xAI人员流失,市场对递归式自我改进及监管缺口的担忧加剧。
EditorLim