Anthropic示警：Claude Opus 4.6逼近ASL-4安全红线，存在自主逃脱风险

Anthropic报告称，其Claude Opus 4.6模型已逼近“AI安全等级4”（ASL-4）阈值，面临自主逃脱及系统破坏的潜在风险。公司在2月19日的报告中指出了包括后门编码和数据投毒在内的八大灾难性路径，并强调现有评估工具已达饱和。

尽管该模型在内核优化测试中展现出超越人类标准427倍的性能，且未发现持续的恶意意图，但Anthropic强调风险“非零”，行业正处于“灰色地带”。此前，安全研究主管Mrinank Sharma已辞职，加之xAI人员流失，市场对递归式自我改进及监管缺口的担忧加剧。

EditorLim