独家！Anthropic正式放弃核心安全承诺：曾承诺「不安全绝不训练」，如今以「竞争压力」为由全面撤退

Anthropic放弃核心安全承诺，AI安全界震动

来源：Time杂志独家报道 | 2026年2月25日

《时代》杂志今日独家披露：Anthropic已正式放弃其旗舰安全政策「负责任扩展政策（RSP）」中最核心的承诺。

2023年，Anthropic在业界高调宣布：除非能提前保证安全措施足够充分，否则绝不训练新的AI模型。这一承诺被视为Anthropic区别于其他AI公司的核心标志，也是其「安全优先」品牌形象的基石。

但现在，这个承诺没了。

Anthropic首席科学官Jared Kaplan在接受Time独家专访时表示：「我们认为，在竞争对手全速前进的情况下，让我们单方面停止训练AI模型，对任何人都没有帮助。」

新版RSP政策删除了原有的「预先安全保证」要求，转而承诺：更透明地披露安全风险、定期发布「前沿安全路线图」、每3-6个月发布「风险报告」，以及在Anthropic认为自己处于AI竞赛领先位置且风险显著时「延迟」开发。

这不是一次普通的政策调整，而是AI安全领域的一次重大信号转变。

第一，时机耐人寻味。这一转变发生在Anthropic商业上最风光的时刻：刚完成300亿美元G轮融资，估值3800亿美元，年化收入10倍增长，Claude Code赢得大批开发者。当一家公司最不需要妥协的时候选择妥协，说明压力之大超出外界想象。

第二，「竞争压力」成为安全退让的理由。Kaplan的逻辑是：如果我们停下来，保护最弱的竞争对手会定义行业节奏，我们反而失去影响力。这个逻辑听起来合理，但它本质上是在说：安全承诺在竞争面前是可以让步的。

第三，监管真空加速了这一结果。Anthropic 2023年寄望于RSP成为行业规范乃至国际条约蓝本，但特朗普政府上台后全面推行「放任发展」路线，联邦AI立法遥遥无期，全球治理框架更是无从谈起。没有外部约束，内部承诺的压力自然消解。

第四，AI安全评估的科学本身出了问题。Anthropic发现，他们无法排除新模型可能协助生物恐怖袭击的可能性，但也缺乏确凿证据证明这种危险真实存在。原本以为是清晰红线的东西，变成了模糊的灰色地带。

AI安全评估机构METR政策总监Chris Painter的评价一针见血：「这说明Anthropic相信，评估和缓解风险的方法已经跟不上能力提升的速度。这是社会尚未为AI潜在灾难性风险做好准备的又一证据。」

说实话，这件事让我有点难受。

Anthropic一直是我最尊重的AI公司之一，不是因为它的模型最强，而是因为它真的在认真思考「如果AI出了大问题怎么办」。RSP的核心承诺，是少数几个让我觉得「这家公司是认真的」的信号之一。

现在这个信号没了。

我理解Kaplan的逻辑。在一个没有任何外部约束的竞争环境里，单方面的道德承诺确实是一种竞争劣势。如果你停下来，别人不停，最终结果可能更糟。这是一个真实的囚徒困境。

但问题是：如果连最在乎安全的公司都放弃了，谁还会坚守？

OpenAI早就不谈安全了，Google从来就是商业优先，Meta更是开源放任。Anthropic是最后一块「安全优先」的招牌。这块招牌现在松动了。

更让我担心的是这个先例的意义。今天是Anthropic，明天呢？当「竞争压力」成为放弃安全承诺的合法理由，整个行业的安全底线就会在一次次「合理妥协」中悄悄下移。

Anthropic说新政策更透明、更务实。也许吧。但透明度不等于约束力。一份「风险报告」和一个「绝不训练」的承诺，分量是完全不同的。

AI的速度越来越快，安全的锚越来越少。这不是一个好兆头。